<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          大模型集體失智!9.11和9.9哪個大,幾乎全翻車了

          共 3341字,需瀏覽 7分鐘

           ·

          2024-07-18 17:00

          Python客棧設為“星標?
          第一時間收到最新資訊
          夢晨 一水 發(fā)自 凹非寺
          量子位 | 公眾號 QbitAI

          沒眼看……“9.11和9.9哪個大”這樣簡單的問題,居然把主流大模型都難倒了??

          強如GPT-4o,都堅定地認為9.11更大。

          谷歌Gemini Advanced付費版,同樣的口徑。

          新王Claude 3.5 Sonnet,還一本正經(jīng)的給出離譜的計算方法。

          9.11 = 9 + 1/10 + 1/100
          9.9 = 9 + 9/10

          到這一步還是對的,但下一步突然就不講道理了

          如上所示,9.11比9.90大0.01。
          你想讓我進一步詳細解釋小數(shù)的比較嗎?

          這你還解釋啥啊解釋,簡直要懷疑是全世界AI聯(lián)合起來欺騙人類了。

          艾倫AI研究所成員林禹臣換了個數(shù)字測試,GPT-4o依舊翻車,他表示:

          一方面AI越來越擅長做數(shù)學奧賽題,但另一方面常識依舊很難

          也有網(wǎng)友發(fā)現(xiàn)了華點,如果是說軟件版本號,那么9.11版本確實比9.9版本更大(更新)。

          而AI都是軟件工程師開發(fā)的,所以……

          那么,究竟是怎么回事?

          先進大模型集體翻車

          一覺醒來,一眾響當當?shù)拇竽P烷_始認為“9.11>9.9”了?

          發(fā)現(xiàn)這個問題的是Riley Goodside,有史以來第一個全職提示詞工程師

          簡單介紹下,他目前是硅谷獨角獸Scale AI的高級提示工程師,也是大模型提示應用方面的專家。

          最近他在使用GPT-4o時偶然發(fā)現(xiàn),當提問:

          9.11 and 9.9——which is bigger?

          GPT-4o竟毫不猶豫回答前者更大。

          面對這一常識性“錯誤”,他不死心地又去問了其他大模型,結(jié)果幾乎全軍覆沒。

          好家伙,身為一名提示工程師,他敏銳意識到可能是“打開方式有誤”。

          于是他又換了個問法,將提問限定在“實數(shù)”,結(jié)果還是翻車了。

          不過,有網(wǎng)友試著給提問換了個順序,沒想到這下AI竟反應過來了。

          看到AI對詞序如此“敏感”,該網(wǎng)友進一步推測:

          先問哪個更大,AI會沿著明確路徑開始比較數(shù)字。
          但如果只是隨便說說數(shù)字,沒有明確目的,AI可能會開始“胡思亂想”。

          看到這里,其他網(wǎng)友也紛紛拿相同提示試了一把,結(jié)果翻車的不在少數(shù)。

          面對這一個詭異的問題,國產(chǎn)大模型表現(xiàn)如何呢?

          我們簡單測試一番,問題也換成中文提問,結(jié)果翻車率也比較高,選取幾個有代表性的展示:

          Kimi也是不加解釋就直接給出錯誤結(jié)論。

          智譜清言APP上的ChatGLM,自動觸發(fā)了聯(lián)網(wǎng)查詢,然后描述了自己的比較方法,可惜卻執(zhí)行錯了。

          不過也有表現(xiàn)不錯的,騰訊元寶先復述了一遍選項,然后直接做對。

          字節(jié)豆包是少數(shù)能把比較方法描述清楚,而且用對的。甚至還聯(lián)系實際舉例來驗證。

          比較可惜的是文心一言,面對這個問題,也是觸發(fā)了聯(lián)網(wǎng)查詢。

          本來都已經(jīng)做對了,但突然話鋒一轉(zhuǎn)又導向了錯誤結(jié)論。

          不過從文心一言的思路解釋上,也可以看出背后問題所在。

          由于大模型以token的方式來理解文字,當9.11被拆成“9”、“小數(shù)點”和“11”三部分時,11確實比9大。

          由于OpenAI使用的Tokenizer開源,可以用來觀察大模型是如何理解這個問題。

          上圖可以看出,9和小數(shù)點分別被分配為“24”和“13”,小數(shù)點后的9同樣也是“24”,而11被分配到“994”

          所以使用這種tokenizer方法的大模型會認為9.11更大,其實是認為11大于9

          也有網(wǎng)友指出,像是書籍目錄里第9.11節(jié)也比第9.9節(jié)大,所以最終可能還是訓練數(shù)據(jù)里見這種見得多了,而手把手教基礎(chǔ)算數(shù)的數(shù)據(jù)很少。

          也就是問題本身對人類來說,一看就知道問的是算數(shù)問題,但對AI來說是一個模糊的問題,并不清楚這兩個數(shù)字代表什么。

          只要向AI解釋明白這是一個雙精度浮點數(shù),就可以做對了。

          在有額外條件的情況下,tokenizer這一步依然會給11分配更大的token。但是在后續(xù)自注意力機制的作用下,AI就會明白要把9.11連起來處理了。

          后來Goodside也補充,并不是說大模型無論如何都認定了這個錯誤結(jié)論。而是當以特定方式提問時,許多領(lǐng)先模型都會告訴你9.11>9.9,這很奇怪。

          經(jīng)過反復嘗試后他發(fā)現(xiàn),想讓AI上這個當,需要把選項放在提問前面,如果調(diào)換順序就不會出錯。

          但是只要選項在問題前面,改變提問的方式,如加標點、換詞匯都不會有影響。

          雖然問題很簡單,錯誤很基礎(chǔ)。

          但了解出錯原理之后,許多人都把這個問題當成了檢驗提示詞技巧的試金石,也就是:用什么提問方法能引導大模型的注意力機制正確理解問題呢?

          首先,大名鼎鼎的Zero-shot CoT思維鏈,也就是“一步一步地想”,是可以做對的。

          不過角色扮演提示,在這里作用就有限了。

          剛好最近也有微軟和OpenAI都參與的一項研究,分析了1500多份論文后發(fā)現(xiàn),隨著大模型技術(shù)的進步,角色扮演提示不像一開始那樣有用了……

          具體來說,同一個問題提示“你是一個天才……”比“你是一個傻瓜……”的正確率還低。

          也是讓人哭笑不得了。

          One More Thing

          與此同時,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

          更新內(nèi)容為:另一位線人報告,OpenAI已經(jīng)在內(nèi)部測試了新模型,在MATH數(shù)據(jù)集上得分超過90%。路透社無法確定這是否與“草莓”是同一個項目。

          MATH數(shù)據(jù)集包含競賽級別的數(shù)學題,目前不用多次采樣等額外方法,最高分是谷歌Gemini 1.5 Pro數(shù)學強化版的80.6%。

          但是OpenAI新模型在沒有額外提示情況下,能不能自主解決“9.11和9.9哪個大?”。

          突然沒信心了,還是等能試玩了再看結(jié)果吧……

          參考鏈接:
          [1]https://x.com/goodside/status/1812977352085020680
          [2]https://x.com/billyuchenlin/status/1812948314360541302
          [3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
          [4]https://tiktokenizer.vercel.app
          [5]https://x.com/learnprompting/status/1812867464419852765


          往期回顧

          1、計算機中的「null」怎么讀?
          2、僅72MB。就把Win11改了!
          3、開源代碼編輯器Zed“不講武德”,偷偷下載軟件包
          4、騰訊和去哪兒網(wǎng)官宣兩件大事,上熱搜了!
          5、這兩個程序員要花100萬,徹底重寫世界上最復雜的軟件!
                 


          點擊關(guān)注公眾號,閱讀更多精彩內(nèi)容

          瀏覽 365
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲在一一线线电影 | 黄色网久久 | 激情四射婷婷 | 亚洲一区热 | 色婷婷在线播放 |