對于第一次進行新高考的省份來說,如何參考歷年數據是最核心的問題;對應到實際數據和算法上,即要解決兩個關鍵點:
1. 不分文理的選科專業(yè)如何對應到歷年的分文理專業(yè)
2. 歷年分文理的錄取排名如何換算到不分文理的排名
一、關鍵點1??招生/錄取專業(yè)對應
這個問題本身不復雜,但很繁瑣,因為數據的邊界情況很難窮盡。
1. 如果歷年招生計劃的專業(yè)名稱沒有變化,例如2016-2019年A大學的B專業(yè)招生名稱是“計算機科學與技術”,2020年的招生名稱也是“計算機科學與技術”,那可以直接對應。
2. 如果歷年的招生計劃專業(yè)名稱發(fā)生了變化(變化原因有很多,例如改名、批次變更、合并等等),例如2016-2019年A大學的B專業(yè)招生名稱是“計算機科學與技術(中外合辦)”,2020年的招生名稱改成“計算機科學與技術(中外合作辦學)”,這種情況在用類似Excel的vlookup精確查找函數去做時,就會找不到數據,如果用簡單的模糊匹配又很容出錯。
對于第二種情況,研究院給出的解決辦法是,通過AI學習了2016-2019年每個省份每個學校的招生專業(yè),機器自動匹配可以解決大部分(在上面的例子里,機器可以準確識別出“中外合辦”和“中外合作辦學”是同樣的語義),少量機器無法確認的,會反饋出來,由人工點選確認,以此來確定邊界的識別廣度范圍和數據的準確性。
二、關鍵點2??排名換算
相比第1個關鍵點,相信關鍵點2是更多人關心的問題。歷年的錄取數據都是分文理的情況,如何在不分文理招生的時候進行參考;對于大部分人來說,第一反應能想到的肯定是通過乘以某個系數比例,進行簡單換算,僅此而已。對此,研究院的同學對幾種算法進行了對比
1. 分數等比例法
認為?科分數的前x%分位點對應與理科分數的前x%分位點,擬合曲線如下圖
2.排名等比例法
認為?科排名的前x%分位點對應與理科排名的前x%分位點,擬合曲線如下圖
3.研究院自研的線性擬合LM+KNN算法
KNN:核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
線性擬合:曲線擬合的一種形式。設x和y都是被觀測的量,且y是x的函數:y=f(x; b),曲線擬合就是通過x,y的觀測值來尋求參數b的最佳估計值,及尋求最佳的理論曲線y=f(x; b)。當函數y=f(x; b)為關于b的i線性函數時,稱這種曲線擬合為線性擬合。
忽略這些晦澀的專業(yè)術語,簡單來說就是:在舊高考時同一個學校在文理兼招的專業(yè),招到的文科學生和理科學生的實力差距是相對穩(wěn)定的(畢竟是那么多年考生用分數投票的結果),但不同層次學校的差距是有差距的。最終通過對不同層次的學校擬合后,即得到對應關系,曲線如下:
一.2022年湖南新高考志愿是專業(yè)組內調劑嗎
二.湖南新高考志愿是院校加專業(yè)組嗎
三.湖南新高考志愿是同時投遞還是順序投遞
四.河北新高考可以報幾個專業(yè)及河北的新高考模式是什么
五.河北新高考可以報一個院校的幾個專業(yè)及志愿填報訣竅
六.河北新高考考生可以報多少個志愿及如何填報
七.3+1+2新高考模式填報志愿如何選大學
八.3+1+2新高考志愿填報依據及如何填報
九.3+1+2新高考志愿填報規(guī)則是什么
十.新高考模式下一個學校可以報幾個專業(yè)
上面就是簡單的3種算法介紹,那問題來了?哪種算法的性能更好呢?這里以浙江新高考(2017年開始)的數據進行測試,得到的結果如下:
*my_Pdict和my_Pdict是不同參數類型的LM+KNN
*MAE越小越好
不難看出,LM+KNN的性能是目前幾種算法中更好的
三、結語
基于以上的數據,目前新高考使用的換算位次算法是LM+KNN。