<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

大模型集體失智！9.11和9.9哪個大，幾乎全翻車了

共 3341字，需瀏覽 7分鐘

·

2024-07-18 17:00

將Python客棧設為“星標?”

第一時間收到最新資訊

夢晨一水發(fā)自凹非寺
量子位 | 公眾號 QbitAI

沒眼看……“9.11和9.9哪個大”這樣簡單的問題，居然把主流大模型都難倒了？？

強如GPT-4o，都堅定地認為9.11更大。

谷歌Gemini Advanced付費版，同樣的口徑。

新王Claude 3.5 Sonnet，還一本正經(jīng)的給出離譜的計算方法。

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

到這一步還是對的，但下一步突然就不講道理了

如上所示，9.11比9.90大0.01。
你想讓我進一步詳細解釋小數(shù)的比較嗎？

這你還解釋啥啊解釋，簡直要懷疑是全世界AI聯(lián)合起來欺騙人類了。

艾倫AI研究所成員林禹臣換了個數(shù)字測試，GPT-4o依舊翻車，他表示：

一方面AI越來越擅長做數(shù)學奧賽題，但另一方面常識依舊很難。

也有網(wǎng)友發(fā)現(xiàn)了華點，如果是說軟件版本號，那么9.11版本確實比9.9版本更大（更新）。

而AI都是軟件工程師開發(fā)的，所以……

那么，究竟是怎么回事？

先進大模型集體翻車

一覺醒來，一眾響當當?shù)拇竽Ｐ烷_始認為“9.11>9.9”了？

發(fā)現(xiàn)這個問題的是Riley Goodside，有史以來第一個全職提示詞工程師。

簡單介紹下，他目前是硅谷獨角獸Scale AI的高級提示工程師，也是大模型提示應用方面的專家。

最近他在使用GPT-4o時偶然發(fā)現(xiàn)，當提問：

9.11 and 9.9——which is bigger?

GPT-4o竟毫不猶豫回答前者更大。

面對這一常識性“錯誤”，他不死心地又去問了其他大模型，結(jié)果幾乎全軍覆沒。

好家伙，身為一名提示工程師，他敏銳意識到可能是“打開方式有誤”。

于是他又換了個問法，將提問限定在“實數(shù)”，結(jié)果還是翻車了。

不過，有網(wǎng)友試著給提問換了個順序，沒想到這下AI竟反應過來了。

看到AI對詞序如此“敏感”，該網(wǎng)友進一步推測：

先問哪個更大，AI會沿著明確路徑開始比較數(shù)字。
但如果只是隨便說說數(shù)字，沒有明確目的，AI可能會開始“胡思亂想”。

看到這里，其他網(wǎng)友也紛紛拿相同提示試了一把，結(jié)果翻車的不在少數(shù)。

面對這一個詭異的問題，國產(chǎn)大模型表現(xiàn)如何呢？

我們簡單測試一番，問題也換成中文提問，結(jié)果翻車率也比較高，選取幾個有代表性的展示：

Kimi也是不加解釋就直接給出錯誤結(jié)論。

智譜清言APP上的ChatGLM，自動觸發(fā)了聯(lián)網(wǎng)查詢，然后描述了自己的比較方法，可惜卻執(zhí)行錯了。

不過也有表現(xiàn)不錯的，騰訊元寶先復述了一遍選項，然后直接做對。

字節(jié)豆包是少數(shù)能把比較方法描述清楚，而且用對的。甚至還聯(lián)系實際舉例來驗證。

比較可惜的是文心一言，面對這個問題，也是觸發(fā)了聯(lián)網(wǎng)查詢。

本來都已經(jīng)做對了，但突然話鋒一轉(zhuǎn)又導向了錯誤結(jié)論。

不過從文心一言的思路解釋上，也可以看出背后問題所在。

由于大模型以token的方式來理解文字，當9.11被拆成“9”、“小數(shù)點”和“11”三部分時，11確實比9大。

由于OpenAI使用的Tokenizer開源，可以用來觀察大模型是如何理解這個問題。

上圖可以看出，9和小數(shù)點分別被分配為“24”和“13”，小數(shù)點后的9同樣也是“24”，而11被分配到“994”。

所以使用這種tokenizer方法的大模型會認為9.11更大，其實是認為11大于9。

也有網(wǎng)友指出，像是書籍目錄里第9.11節(jié)也比第9.9節(jié)大，所以最終可能還是訓練數(shù)據(jù)里見這種見得多了，而手把手教基礎(chǔ)算數(shù)的數(shù)據(jù)很少。

也就是問題本身對人類來說，一看就知道問的是算數(shù)問題，但對AI來說是一個模糊的問題，并不清楚這兩個數(shù)字代表什么。

只要向AI解釋明白這是一個雙精度浮點數(shù)，就可以做對了。

在有額外條件的情況下，tokenizer這一步依然會給11分配更大的token。但是在后續(xù)自注意力機制的作用下，AI就會明白要把9.11連起來處理了。

后來Goodside也補充，并不是說大模型無論如何都認定了這個錯誤結(jié)論。而是當以特定方式提問時，許多領(lǐng)先模型都會告訴你9.11>9.9，這很奇怪。

經(jīng)過反復嘗試后他發(fā)現(xiàn)，想讓AI上這個當，需要把選項放在提問前面，如果調(diào)換順序就不會出錯。

但是只要選項在問題前面，改變提問的方式，如加標點、換詞匯都不會有影響。

雖然問題很簡單，錯誤很基礎(chǔ)。

但了解出錯原理之后，許多人都把這個問題當成了檢驗提示詞技巧的試金石，也就是：用什么提問方法能引導大模型的注意力機制正確理解問題呢？

首先，大名鼎鼎的Zero-shot CoT思維鏈，也就是“一步一步地想”，是可以做對的。

不過角色扮演提示，在這里作用就有限了。

剛好最近也有微軟和OpenAI都參與的一項研究，分析了1500多份論文后發(fā)現(xiàn)，隨著大模型技術(shù)的進步，角色扮演提示不像一開始那樣有用了……

具體來說，同一個問題提示“你是一個天才……”比“你是一個傻瓜……”的正確率還低。

也是讓人哭笑不得了。

One More Thing

與此同時，路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

更新內(nèi)容為：另一位線人報告，OpenAI已經(jīng)在內(nèi)部測試了新模型，在MATH數(shù)據(jù)集上得分超過90%。路透社無法確定這是否與“草莓”是同一個項目。

MATH數(shù)據(jù)集包含競賽級別的數(shù)學題，目前不用多次采樣等額外方法，最高分是谷歌Gemini 1.5 Pro數(shù)學強化版的80.6%。

但是OpenAI新模型在沒有額外提示情況下，能不能自主解決“9.11和9.9哪個大？”。

突然沒信心了，還是等能試玩了再看結(jié)果吧……

參考鏈接：
[1]https://x.com/goodside/status/1812977352085020680
[2]https://x.com/billyuchenlin/status/1812948314360541302
[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
[4]https://tiktokenizer.vercel.app
[5]https://x.com/learnprompting/status/1812867464419852765

     
      往期回顧

     1、計算機中的「null」怎么讀？
    

     2、僅72MB。就把Win11改了！

     3、開源代碼編輯器Zed“不講武德”，偷偷下載軟件包
    

     4、騰訊和去哪兒網(wǎng)官宣兩件大事，上熱搜了！
    

     5、這兩個程序員要花100萬，徹底重寫世界上最復雜的軟件！
    

       
        
         

         點擊關(guān)注公眾號，閱讀更多精彩內(nèi)容

瀏覽 365

點贊

收藏

分享

舉報

評論

圖片

表情

大模型集體失智！9.11比9.9大？全員翻車！

部分轉(zhuǎn)自：量子位前段時間，阿里巴巴數(shù)學競賽中姜萍的事件鬧得沸沸揚揚，很多人也讓AI嘗試挑戰(zhàn)這些競賽題，雖然表現(xiàn)還是不夠看，但也能看出來，AI 對于數(shù)據(jù)庫里已有的題目，還是發(fā)揮不錯的。不過，近日有人發(fā)現(xiàn)，各大 AI 大模型居然在小學生都會的簡單數(shù)學常識中接連翻車。這個問題就是，9.11 和 9.9 誰

翻車了！！！

一鍋湯軟件

互聯(lián)網(wǎng)晚報 | 李佳琦方回應直播間賣假和田玉傳聞；特朗普遭刺殺后支持率未顯著領(lǐng)先；多家大模型測不出9.11和9.9哪個大

李佳琦方回應直播間賣假和田玉傳聞：產(chǎn)品符合國家標準 7月17日晚間，美ONE發(fā)布關(guān)于對“李佳琦直播間賣假和田玉”網(wǎng)絡謠言的聲明。聲明中指出，產(chǎn)品上播前，公司對產(chǎn)品進行嚴格的選品和資質(zhì)審核，確保產(chǎn)品合法合規(guī)。2023年10月，公司關(guān)注到部分自媒體發(fā)帖，即刻對所審資質(zhì)進行了復審，并聯(lián)系第三方權(quán)

AI翻車了……

Mix Lab味知實驗室

“這里就是你的家” 我需要一遍遍告訴她/他獲日本文學振興會菊池寬獎 ————

美國，幾乎全紅了！

遼寧省集體協(xié)商和集體合同規(guī)定

遼寧省集體協(xié)商和集體合同規(guī)定（2007年1月15日遼寧省人民政府令第202號公布自2007年3月1日起施行）第一條　為了規(guī)范集體協(xié)商和簽訂集體合同行為，維護職工和用人單位的合法權(quán)益，促進勞動關(guān)系的穩(wěn)定，根據(jù)《中華人民共和國勞動法》和《中華人民共和國工會法》，結(jié)合我省實際，制定本規(guī)定。第二

點贊

收藏

分享

舉報

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

亚洲在一一线线电影 | 黄色网久久 | 激情四射婷婷 | 亚洲一区热 | 色婷婷在线播放 |