大模型集體失智!9.11比9.9大?全員翻車!
共 1502字,需瀏覽 4分鐘
·
2024-07-16 16:03
部分轉(zhuǎn)自:量子位
前段時間,阿里巴巴數(shù)學(xué)競賽中姜萍的事件鬧得沸沸揚揚,很多人也讓AI嘗試挑戰(zhàn)這些競賽題,雖然表現(xiàn)還是不夠看,但也能看出來,AI 對于數(shù)據(jù)庫里已有的題目,還是發(fā)揮不錯的。
不過,近日有人發(fā)現(xiàn),各大 AI 大模型居然在小學(xué)生都會的簡單數(shù)學(xué)常識中接連翻車。
這個問題就是,9.11 和 9.9 誰大?
對于人們心目中的天花板 GPT-4 和 GPT-4o,回答絲毫不拖泥帶水:
9.11居然比9.9大!我們再看看 Gemini Advanced 的回答:
好的,又是斬釘截鐵的給出了一個錯誤答案。再看到,Claude 3.5 Sonnet 并不像前兩位那樣直接給出了錯誤答案,而是開始分析:
分析了一通,拆開還是對的,怎么到了答案,又拉垮了...
經(jīng)過測試,各大國產(chǎn)大模型也沒有幸免于難。
Kimi:
ChatGLM:
通義:
元寶:
豆包:
不過令人意外的是,免費版本的百度文心 3.5,居然保持了清醒,一邊分析一邊破題,解釋和答案完全正確。
不過看網(wǎng)上消息,它之前也是錯的,等我試的時候已經(jīng)是正確的了。如果是這樣,那這解 case 的速度,是真快啊。
這個問題是由 Riley Goodside 發(fā)現(xiàn)的,有史以來第一個全職提示詞工程師。目前在硅谷獨角獸Scale AI 工作。
這樣一個常識問題,為什么到了 AI 手上就變得如此難纏?
網(wǎng)友給出了解釋:AI 都是工程師開發(fā)的,對于版本號來說,9.11 確實比 9.9 更大;對于書本的目錄來說,9.11 也確實排在 9.9 后面。
在大量的訓(xùn)練集中,常識的輸入可能確實不如這些樣本多,導(dǎo)致了 AI 把版本號、書籍目錄的理解方式代入了常識。
而眾所周知,大模型使用 token 的方式理解文字。OpenAI 使用開源的 Tokenizer ,可以用來觀察大模型是如何理解這個問題的。
可以看出,9 和小數(shù)點分別被分配為“24”和“13”,小數(shù)點后的 9 同樣也是“24”,而 11 被分配到“994”。
這樣問題就很清晰了,模型先比較了 9,發(fā)現(xiàn)大小相同,然后比較小數(shù)點后面的部分,發(fā)現(xiàn) 11 比 9 大,就給出了 9.11 更大的結(jié)論。
知道了問題所在,只要向 AI 解釋這是一個“雙精度浮點數(shù)”,它們就能很明確地解決問題了。
只要有了額外條件,AI 似乎就能正確判斷這兩個數(shù)的大小。而 Goodside 在反復(fù)試驗后說到,想讓 AI 上這個當(dāng),需要把選項放在提問前面,如果調(diào)換順序,就不會出錯。
這個問題讓人不禁聯(lián)想到前些年網(wǎng)上熱傳的 0.8 x 0.5 等于幾,現(xiàn)在輪到 AI 開始反常識了。
AI 大模型發(fā)展的道路,至少在數(shù)學(xué)方面,依舊是任重而道遠(yuǎn)啊。
