AI高考“作弊”挑戰(zhàn):評測結(jié)果已發(fā)布!
共 1637字,需瀏覽 4分鐘
·
2024-06-20 16:03
轉(zhuǎn)自:菜鳥教程
首個 AI 高考全卷評測結(jié)果已經(jīng)發(fā)布,Qwen2-72B、GPT-4o 及書生·浦語2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲。
大部分大模型在語文和英語科目上表現(xiàn)良好,但在數(shù)學(xué)科目上還有待加強(qiáng)。
在語文和英語科目上,AI 展現(xiàn)出了較強(qiáng)語言能力,阿里巴巴開源的 Qwen2 系列 MoE 對話模型、GPT-4o 以及書生·浦語2.0 等模型在這兩個科目上的平均得分均超過了 105 分,顯示出 AI 在理解和生成語言方面的潛力。
-
Qwen2-72B 語文達(dá)到了 124分,英語 109 分。
-
GPT-4o 語文 111.5 分,英語達(dá)到了 111.5 分。
然而,當(dāng)轉(zhuǎn)向數(shù)學(xué)科目時,AI 的表現(xiàn)卻不盡如人意,InternLM2-20B-WQX 在數(shù)學(xué)單科上排第一為 75 分,GPT-4o 與 Qwen2-72B 分別為 73 分和 70 分,所有參與評測的AI模型在數(shù)學(xué)上均未達(dá)到及格線。
這一結(jié)果凸顯了 AI 在復(fù)雜推理和計(jì)算能力上的局限性。
盡管 AI 在數(shù)學(xué)上的表現(xiàn)尚有提升空間,但這次評測無疑為AI的未來發(fā)展提供了寶貴的參考。
數(shù)學(xué)能力的提高不僅關(guān)系到AI在金融、工業(yè)等專業(yè)領(lǐng)域的應(yīng)用,也是 AI 技術(shù)成熟度的重要標(biāo)志。
總結(jié)一下:
語文:
-
模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但是不同模型的文言文閱讀理解能力差距較大。
-
大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法 。
-
多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”,大模型尚無法完全理解。
數(shù)學(xué):
-
大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。
-
大模型的公式記憶能力較強(qiáng),但是無法在解題過程中靈活引用。
英語:
-
英語整體表現(xiàn)良好,但部分模型由于不適應(yīng)題型,在七選五、完形填空等題型得分率較低。
-
大模型英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況,而人類考生多因?yàn)樽謹(jǐn)?shù)不夠扣分。
最后
測評的話,我也做過。
測了 ChatGPT 4.0、通義千問 2.5、文心一言 4.0、騰訊元寶、豆包、kimi、GLM4。
在2024年高考數(shù)學(xué)題 + 阿里數(shù)賽的表現(xiàn),感興趣也可以看下:
https://www.bilibili.com/video/BV1AS421o7ZQ
