轉(zhuǎn)自：菜鳥教程

首個 AI 高考全卷評測結(jié)果已經(jīng)發(fā)布，Qwen2-72B、GPT-4o 及書生·浦語2.0 文曲星（InternLM2-20B-WQX）成為本次大模型高考的前三甲。

大部分大模型在語文和英語科目上表現(xiàn)良好，但在數(shù)學(xué)科目上還有待加強(qiáng)。

在語文和英語科目上，AI 展現(xiàn)出了較強(qiáng)語言能力，阿里巴巴開源的 Qwen2 系列 MoE 對話模型、GPT-4o 以及書生·浦語2.0 等模型在這兩個科目上的平均得分均超過了 105 分，顯示出 AI 在理解和生成語言方面的潛力。

Qwen2-72B 語文達(dá)到了 124分，英語 109 分。
GPT-4o 語文 111.5 分，英語達(dá)到了 111.5 分。

然而，當(dāng)轉(zhuǎn)向數(shù)學(xué)科目時，AI 的表現(xiàn)卻不盡如人意，InternLM2-20B-WQX 在數(shù)學(xué)單科上排第一為 75 分，GPT-4o 與 Qwen2-72B 分別為 73 分和 70 分，所有參與評測的AI模型在數(shù)學(xué)上均未達(dá)到及格線。

這一結(jié)果凸顯了 AI 在復(fù)雜推理和計(jì)算能力上的局限性。

盡管 AI 在數(shù)學(xué)上的表現(xiàn)尚有提升空間，但這次評測無疑為AI的未來發(fā)展提供了寶貴的參考。

數(shù)學(xué)能力的提高不僅關(guān)系到AI在金融、工業(yè)等專業(yè)領(lǐng)域的應(yīng)用，也是 AI 技術(shù)成熟度的重要標(biāo)志。

總結(jié)一下：

語文：

模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng)，但是不同模型的文言文閱讀理解能力差距較大。
大模型作文更像問答題，雖然有針對性但缺乏修飾，幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法。
多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”，大模型尚無法完全理解。

數(shù)學(xué)：

大模型的主觀題回答相對凌亂，且過程具有迷惑性，甚至出現(xiàn)過程錯誤但得到正確答案的情況。
大模型的公式記憶能力較強(qiáng)，但是無法在解題過程中靈活引用。

英語：

英語整體表現(xiàn)良好，但部分模型由于不適應(yīng)題型，在七選五、完形填空等題型得分率較低。
大模型英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況，而人類考生多因?yàn)樽謹(jǐn)?shù)不夠扣分。

參考鏈接：https://www.shlab.org.cn/news/5443927

公開評測細(xì)節(jié)可訪問 :https://github.com/open-compass/GAOKAO-Eval

最后

測評的話，我也做過。

測了 ChatGPT 4.0、通義千問 2.5、文心一言 4.0、騰訊元寶、豆包、kimi、GLM4。

在2024年高考數(shù)學(xué)題 + 阿里數(shù)賽的表現(xiàn)，感興趣也可以看下：

https://www.bilibili.com/video/BV1AS421o7ZQ

·················END·················

AI高考“作弊”挑戰(zhàn)：評測結(jié)果已發(fā)布！

最后