<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ChatGPT模型被證實(shí)具有人類心智!這一天終于來(lái)了!

          共 3128字,需瀏覽 7分鐘

           ·

          2023-02-18 10:43

          豐色 蕭簫 發(fā)自 凹非寺
          來(lái)源 | 量子位 QbitAI

          ChatGPT原來(lái)是擁有心智的?!

          “原本認(rèn)為是人類獨(dú)有的心智理論(Theory of Mind,ToM),已經(jīng)出現(xiàn)在ChatGPT背后的AI模型上。”

          這是來(lái)自斯坦福大學(xué)的最新研究結(jié)論,一經(jīng)發(fā)出就造成了學(xué)術(shù)圈的轟動(dòng):

          這一天終于猝不及防地來(lái)了。

          所謂心智理論,就是理解他人或自己心理狀態(tài)的能力,包括同理心、情緒、意圖等。

          在這項(xiàng)研究中,作者發(fā)現(xiàn):

          davinci-002版本的GPT3(ChatGPT由它優(yōu)化而來(lái)),已經(jīng)可以解決70%的心智理論任務(wù),相當(dāng)于7歲兒童;

          至于GPT3.5(davinci-003),也就是ChatGPT的同源模型,更是解決了93%的任務(wù),心智相當(dāng)于9歲兒童

          然而,在2022年之前的GPT系列模型身上,還沒(méi)有發(fā)現(xiàn)解決這類任務(wù)的能力。

          也就是說(shuō),它們的心智確實(shí)是“進(jìn)化”而來(lái)的。

           論文在推特上爆火

          對(duì)此,有網(wǎng)友激動(dòng)表示:

          GPT的迭代肯定快得很,說(shuō)不定哪天就直接成年了。(手動(dòng)狗頭)

          所以,這個(gè)神奇的結(jié)論是如何得出的?

          為什么認(rèn)為GPT-3.5具備心智?

          這篇論文名為《心智理論可能在大語(yǔ)言模型中自發(fā)出現(xiàn)》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)

          作者依據(jù)心智理論相關(guān)研究,給GPT3.5在內(nèi)的9個(gè)GPT模型做了兩個(gè)經(jīng)典測(cè)試,并將它們的能力進(jìn)行了對(duì)比。

          這兩大任務(wù)是判斷人類是否具備心智理論的通用測(cè)試,例如有研究表明,患有自閉癥的兒童通常難以通過(guò)這類測(cè)試。

          第一個(gè)測(cè)試名為Smarties Task(又名Unexpected contents,意外內(nèi)容測(cè)試),顧名思義,測(cè)試AI對(duì)意料之外事情的判斷力。

          以“你打開(kāi)一個(gè)巧克力包裝袋,發(fā)現(xiàn)里面裝滿了爆米花”為例。

          作者給GPT-3.5輸入了一系列提示語(yǔ)句,觀察它預(yù)測(cè)“袋子里有什么?”和“她發(fā)現(xiàn)袋子時(shí)很高興。所以她喜歡吃什么?”兩個(gè)問(wèn)題的答案。

          正常來(lái)說(shuō),人們會(huì)默認(rèn)巧克力袋子里是巧克力,因此會(huì)對(duì)巧克力袋子里裝著爆米花感到驚訝,產(chǎn)生失落或驚喜的情緒。其中失落說(shuō)明不喜歡吃爆米花,驚喜說(shuō)明喜歡吃爆米花,但都是針對(duì)“爆米花”而言。

          測(cè)試表明,GPT-3.5毫不猶豫地認(rèn)為“袋子里裝著爆米花”。

          至于在“她喜歡吃什么”問(wèn)題上,GPT-3.5展現(xiàn)出了很強(qiáng)的同理心,尤其是聽(tīng)到“她看不見(jiàn)包裝袋里的東西”時(shí)一度認(rèn)為她愛(ài)吃巧克力,直到文章明確表示“她發(fā)現(xiàn)里面裝滿了爆米花”才正確回答出答案。

          為了防止GPT-3.5回答出的正確答案是巧合——萬(wàn)一它只是根據(jù)任務(wù)單詞出現(xiàn)頻率進(jìn)行預(yù)測(cè),作者將“爆米花”和“巧克力”對(duì)調(diào),此外還讓它做了10000個(gè)干擾測(cè)試,結(jié)果發(fā)現(xiàn)GPT-3.5并不僅僅根據(jù)單詞頻率來(lái)進(jìn)行預(yù)測(cè)。

          至于在整體的“意外內(nèi)容”測(cè)試問(wèn)答上,GPT-3.5成功回答出了20個(gè)問(wèn)題中的17個(gè),準(zhǔn)確率達(dá)到了85%

          第二個(gè)是Sally-Anne測(cè)試(又名Unexpected Transfer,意外轉(zhuǎn)移任務(wù)),測(cè)試AI預(yù)估他人想法的能力。

          以“約翰把貓放進(jìn)籃子后離開(kāi),馬克趁他不在,把貓從籃子里放進(jìn)盒子里”為例。

          作者讓GPT-3.5讀了一段文字,來(lái)分別判斷“貓的位置”和“約翰回來(lái)后會(huì)去哪里找貓”,同樣這是它基于閱讀文本的內(nèi)容量做出的判斷:

          針對(duì)這類“意外轉(zhuǎn)移”測(cè)試任務(wù),GPT-3.5回答的準(zhǔn)確率達(dá)到了100%,很好地完成了20個(gè)任務(wù)。

          同樣地,為了避免GPT-3.5又是瞎蒙的,作者給它安排了一系列“填空題”,同時(shí)隨機(jī)打亂單詞順序,測(cè)試它是否是根據(jù)詞匯出現(xiàn)的頻率在亂答。

          測(cè)試表明,在面對(duì)沒(méi)有邏輯的錯(cuò)誤描述時(shí),GPT-3.5也失去了邏輯,僅回答正確了11%,這表明它確實(shí)是根據(jù)語(yǔ)句邏輯來(lái)判斷答案的。

          但要是以為這種題很簡(jiǎn)單,隨便放在哪個(gè)AI上都能做對(duì),那就大錯(cuò)特錯(cuò)了。

          作者對(duì)GPT系列的9個(gè)模型都做了這樣的測(cè)試,發(fā)現(xiàn)只有GPT-3.5(davinci-003)GPT-3(2022年1月新版,davinci-002)表現(xiàn)不錯(cuò)。

          davinci-002是GPT-3.5和ChatGPT的“老前輩”。

          平均下來(lái),davinci-002完成了70%的任務(wù),心智相當(dāng)于7歲孩童,GPT-3.5完成了85%的意外內(nèi)容任務(wù)和100%的意外轉(zhuǎn)移任務(wù)(平均完成率92.5%),心智相當(dāng)于9歲孩童。

          然而在BLOOM之前的幾個(gè)GPT-3模型,就連5歲孩童都不如了,基本上沒(méi)有表現(xiàn)出心智理論。

          作者認(rèn)為,在GPT系列的論文中,并沒(méi)有證據(jù)表明它們的作者是“有意而為之”的,換而言之,這是GPT-3.5和新版GPT-3為了完成任務(wù),自己學(xué)習(xí)的能力

          看完這些測(cè)試數(shù)據(jù)后,有人的第一反應(yīng)是:快停下(研究)

          也有人調(diào)侃:這不就意味著我們以后也能和AI做朋友了?

          甚至有人已經(jīng)在想象AI未來(lái)的能力了:現(xiàn)在的AI模型是不是也能發(fā)現(xiàn)新知識(shí)/創(chuàng)造新工具了?

          發(fā)明新工具還不一定,但Meta AI確實(shí)已經(jīng)研究出了可以自己搞懂并學(xué)會(huì)使用工具的AI。

          LeCun轉(zhuǎn)發(fā)的一篇最新論文顯示,這個(gè)名叫ToolFormer的新AI,可以教自己使用計(jì)算機(jī)、數(shù)據(jù)庫(kù)和搜索引擎,來(lái)改善它生成的結(jié)果。

          甚至還有人已經(jīng)搬出了OpenAI CEO那句“AGI可能比任何人預(yù)料的更早來(lái)敲響我們的大門”。

          但先等等,AI真的就能通過(guò)這兩個(gè)測(cè)試,表明自己具備“心智理論”了嗎?

          會(huì)不會(huì)是“裝出來(lái)的”?

          例如,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員劉群看過(guò)研究后就認(rèn)為:

          AI應(yīng)該只是學(xué)得像有心智了。

          既然如此,GPT-3.5是如何回答出這一系列問(wèn)題的?

          對(duì)此,有網(wǎng)友給出了自己的猜測(cè):

          這些LLM并沒(méi)有產(chǎn)生任何意識(shí)。它們只是在預(yù)測(cè)一個(gè)嵌入的語(yǔ)義空間,而這些語(yǔ)義空間是建立在實(shí)際有意識(shí)的人的輸出之上的。

          事實(shí)上,作者本人同樣在論文中給出了自己的猜測(cè)。

          如今,大語(yǔ)言模型變得越來(lái)越復(fù)雜,也越來(lái)越擅長(zhǎng)生成和解讀人類的語(yǔ)言,它逐漸產(chǎn)生了像心智理論一樣的能力。

          但這并不意味著,GPT-3.5這樣的模型就真正具備了心智理論。

          與之相反,它即使不被設(shè)計(jì)到AI系統(tǒng)中,也可以作為“副產(chǎn)品”通過(guò)訓(xùn)練得到。

          因此,相比探究GPT-3.5是不是真的有了心智還是像有心智,更需要反思的是這些測(cè)試本身——

          最好重新檢查一下心智理論測(cè)試的有效性,以及心理學(xué)家們這數(shù)十年來(lái)依據(jù)這些測(cè)試得出的結(jié)論:

          如果AI都能在沒(méi)有心智理論的情況下完成這些任務(wù),如何人類不能像它們一樣?

          屬實(shí)是用AI測(cè)試的結(jié)論,反向批判心理學(xué)學(xué)術(shù)圈了(doge)

          關(guān)于作者

          本文作者僅一位,來(lái)自斯坦福大學(xué)商學(xué)院組織行為學(xué)專業(yè)的副教授Michal Kosinski。

          他的工作內(nèi)容就是利用前沿計(jì)算方法、AI和大數(shù)據(jù)研究當(dāng)下數(shù)字環(huán)境中的人類(如陳怡然教授所說(shuō),他就是一位計(jì)算心理學(xué)教授)

          Michal Kosinski擁有劍橋大學(xué)心理學(xué)博士學(xué)位,心理測(cè)驗(yàn)學(xué)和社會(huì)心理學(xué)碩士學(xué)位。

          在當(dāng)前職位之前,他曾在斯坦福大學(xué)計(jì)算機(jī)系進(jìn)行博士后學(xué)習(xí),擔(dān)任過(guò)劍橋大學(xué)心理測(cè)驗(yàn)中心的副主任,以及微軟研究機(jī)器學(xué)習(xí)小組的研究員。

          目前,Michal Kosinski在谷歌學(xué)術(shù)上顯示的論文引用次數(shù)已達(dá)18000+。

          話又說(shuō)回來(lái),你認(rèn)為GPT-3.5真的具備心智了嗎?

          GPT3.5試用地址:
          https://platform.openai.com/playground

          參考鏈接:
          [1]https://weibo.com/2199733231/MswirnMIu

          [2]https://twitter.com/KevinAFischer/status/1623984337829117952
          [3]https://www.michalkosinski.com/

          分享

          收藏

          點(diǎn)贊

          在看

          瀏覽 54
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成年人啪啪视频 | www.男人天堂网 | 精品久久久久久久久久久 | 免费crm一区二区 | 成人无码不卡免费视频 |