<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GPT-4的圖靈測試結果出爐!

          共 6684字,需瀏覽 14分鐘

           ·

          2023-11-08 12:43

          ?

          大數據文摘受權轉載自夕小瑤科技說

          作者:智商掉了一地、ZenMoore

          圖靈測試,作為衡量機器思維能力的方式,自 1950 年由圖靈設計以來一直備受爭議。這個模仿游戲的設定包括人類和人工智能(AI)參與者,AI 試圖通過純文本界面讓詢問者相信他們是人類。

          自那時以來,圖靈測試的引發(fā)了激烈爭議,人們討論它究竟是在衡量什么,以及哪種系統(tǒng)有可能通過這一測試。盡管如今大型語言模型(LLM)似乎很適合進行圖靈測試,但它是否能夠通過測試卻沒有得到明確的答案。

          在本文中,作者通過在線公開圖靈測試將 GPT-4 和其他智能體與人類進行了比較,來對這個問題進行實證研究,實驗表明:

          • 在 41% 的游戲中,表現最佳的 GPT-4 提示通過了測試,超過了 ELIZA 和 GPT-3.5 基準,但未達到和人類參與者相當的水準。

          • 參與者的決策主要基于語言風格和社會情感特征,這支持了智能體不足以通過圖靈測試的觀點。

          • 參與者的人口統(tǒng)計學特征,包括教育和對 LLM 的熟悉程度,并不能被用來預測檢測率,這表明即使是深入了解系統(tǒng)并經常與其互動的人也可能容易受到欺騙。

          盡管圖靈測試存在一些局限性,但我們仍然可以將其視為評估自然語言交互和欺騙的相關標準。此外,鑒于具備冒充人類能力的 AI 模型可能對社會產生廣泛影響,作者還分析了不同策略以及判斷模型是否與人類相似的標準的有效性。

          論文題目:
          Does GPT-4 Pass the Turing Test?

          論文鏈接:
          https://arxiv.org/abs/2310.20216

          圖靈測試是否有意義


          圖靈認為游戲的開放性質(審問者可以詢問任何事情,從浪漫愛情到數學)構成了一項廣泛且有挑戰(zhàn)性的智力測試。大型語言模型(LLM)能生成流暢的自然文本,在各種基于語言的任務上與人類幾乎持平,似乎非常適合圖靈游戲。

          ▲圖1 圖靈測試實驗的聊天界面,人類審問者(綠色)與 GPT-4 之間的示例對話


          但在激烈討論下,圖靈測試似乎并不能確定機器是否真正具有智能性,它最多只能提供一種概率性的支持或反對證據,因為仍存在著許多限制。但盡管如此,圖靈測試仍然具有重要意義。

          • 首先,它幫助我們評估機器是否能夠欺騙人類,讓人誤以為它們是真正的人。這個能力對社會有廣泛的影響,包括自動化客戶服務、虛假信息傳播、AI 模型的欺騙,以及對與真正人類互動的信任問題。

          • 其次,圖靈測試為研究人類相似性提供了一個框架。不僅僅是評估機器,還探討了人類參與者的文化、倫理和心理假設。通過分析參與者的策略和理由,我們可以更好地理解人們認為哪些特質構成了人類,以及哪些特質難以模仿。


          方法


          AI 參與者

          作者采用了圖靈測試的兩人實現方式,其中一個審問者向單個參與者提問,來決定他們是人類還是 AI。這與圖靈的原始三人公式有所不同,但避免了需要每場測評有多個人類在線參與的需要。

          作者創(chuàng)建了 25 個 LLM 參與者進行實驗。這些參與者通過 OpenAI API 來回復用戶的問題。每個參與者由模型(GPT-3.5 或 GPT-4)、溫度參數(0.2、0.5 或 1.0)和提示區(qū)分。提示告訴參與者在互動中應該怎么做,包括回復的方式。

          ▲圖2 示例提示,Juliet,用于為 LLM 提供上下文背景和如何回復用戶提示的指令

          界面

          聊天界面被設計成類似于傳統(tǒng)的消息應用程序。如圖 3 所示,審問者的消息顯示在對話框的右側綠色區(qū)域。在對話框的底部,包括審問者的最終判定、置信度和判定原因,以及參與者的真實身份。

          ▲圖3 四個游戲對話的示例

          流程

          在研究中,人類玩家進入等待室,被隨機分配到兩種不同類型的游戲,一種是與真正的人類玩,另一種是與 AI 玩。為了避免等待時間太長,AI 游戲的等待時間設置成與前面五場人類比賽的平均等待時間相同。如果在規(guī)定時間內找不到人類比賽的話,玩家就會被匹配到與 AI 對戰(zhàn)。

          在人類比賽中,兩名玩家被分為審問者和參與者的角色:

          • 參與者:是要說服審問者他們是真正的人類。

          • 審問者:與 AI 模型比賽的玩家總是擔任審問者的角色。

          AI 模型的選擇通過一種探索或開發(fā)策略來確定,然后對于每個模型,從分布中抽取樣本:


          其中   是模型的數量,  和   分別是模型游戲歷史中獲勝和損失的數量,由審問者對每個判定的置信度加權。


          實驗結果

          成功率

          成功率(SR)定義:審問者決定參與者是人類的比賽的比例(即參與者成功)。
          ▲表1 審問者判定參與者的成功率(SR)和比賽數量(n)
          如圖 4 所示,人類參與者表現最好,SR 為 63%,表現最佳的 GPT-4 提示(Sierra)為 41%。而且,不同提示的性能存在較大的差異。
          ▲圖4 一組參與者的圖靈測試成功率(SR)
          如圖 5 所示,在與 AI 的游戲中,審問者的置信度相當準確,但在與真實人類參與者的游戲中,置信度與準確性之間沒有明顯關聯。需要注意的是,由于本文的采樣算法傾向于選擇表現更好的模型,因此具有較少測評數據的模型可能會產生較低的 SR ,所以這些結果可能不太靠譜。
          ▲圖5 審問者的置信度與準確性以及參與者類型之間的關系
          假設模型在審問者的第一場測評中會享有優(yōu)勢,因為審問者還沒有機會熟悉游戲。如圖 6 所示,性能最佳的參與者在第一場測評中的表現與他們的整體 SR 類似。
          ▲圖6 審問者第一場比賽的成功率(SR)

          審問者的人口統(tǒng)計特征

          作者研究了審問者的能力,看他們是否能受到一些已知人機互動統(tǒng)計因素的影響(如年齡、性別、教育水平以及與聊天機器人的互動頻率,以及對 LLM 的了解程度)。然而,如圖 7 的研究結果表明,這些因素似乎對審問者在辨別他們是在與真人還是 AI 對話方面的準確性沒有明顯影響,同時,沒有發(fā)現任務經驗會提高參與者的表現。
          ▲圖7 審問者的統(tǒng)計特征

          策略

          作者對 300 場測評中審問者采用的策略進行了分類。如圖 8 顯示,最常見的策略類型是閑聊,詢問參與者當天在做什么以及他們生活中的其他個人細節(jié)。其他常見策略包括知識推理和上下文意識。
          ▲圖8 審問者用來審問參與者的前 20 種策略類型
          此外,為了分析不同策略的有效性,作者探索了采用策略的平均準確性,同時還探索了詢問審問者的策略是否隨時間而改變。如圖 9 所示,審問者在最早的比賽中傾向于使用社會情感策略和上下文意識問題(關于天氣和時間),而更有經驗的審問者傾向于考察參與者的知識和觀點。
          ▲圖9 審問者采用的策略的平均準確性

          原因

          參與者提供了決策的原因,分為 6 類:語言風格、社交與情感、知識與內容、上下文感知、元(模型控制范圍之外的游戲方面)和無信息(模糊或無關的原因)。
          如圖 10 所示,最常見的原因是語言方面(如模型過于不正式、過度使用聽起來不自然的附加語、使用重復的句子結構)和社交情感因素(如模型缺乏個性或產生不自然的回復,而人類不會)。
          ▲圖10 審問者認定 AI 參與者實際上是 AI 的前 20 個原因

          討論

          1. GPT-4 是否通過了圖靈測試?

          圖靈曾在 70 年前說過:
          "我相信大約在五十年后,將有可能在有大約    存儲容量的計算機上編程,使它們能夠在模擬游戲中表現得非常出色,以至于一位普通的審問者在詢問五分鐘后,正確分辨的機會不會超過 70%。"
          通過上述研究發(fā)現,某些 GPT-4 參與者比圖靈預計地晚 20 年順利通過圖靈測試(審問者有時無法準確辨認它們是 AI)。但我們還需要考慮是否 30% 的誤識率足夠好,或者是否該有更嚴格的標準才能真正通過圖靈測試。更高的誤識率可能表明審問者在模型和人類之間的區(qū)別上存在困難。然而,這也可能出現隨機猜測的情況(審問者無法提供可靠的鑒別)。
          然而,要求 AI 參與者在模仿游戲中幾乎像人類一樣成功(審問者很難分辨他們是 AI),就意味著 AI 需要表現得幾乎和人類一樣好,從而騙過審問者。這可能對 AI 不太公平,因為必須欺騙,而人類可以坦率地回答問題就行。
          最終,要評估圖靈測試的成功,需要確定 AI 的表現是否明顯優(yōu)于人類基線。在此研究中,所有 AI 參與者都沒有滿足這個標準,因此沒有找到 GPT-4 通過圖靈測試的證據。即使某些模型在某些情況下表現出色,這個研究的設計和分析限制了得出結論的強度,而支持某個系統(tǒng)通過圖靈測試的強有力證據需要更多的研究和控制實驗。

          2. GPT-4 能通過圖靈測試嗎?

          如圖 4 所示,根據所給的提示不同,AI 的表現有很大變化。我們有理由相信可能有更好的提示,使得 AI 在這測試中表現更好,也許能夠完全達到通過圖靈測試的標準。
          此外,有些審問者認為參與者是 AI 的理由(如說話太不正式、句子結構太重復,或者回避一些敏感話題)相對容易解決,但設計出有效的提示具有挑戰(zhàn)性。根據經驗,嘗試解決一個問題通常會引入新的方法,讓系統(tǒng)表現得不像人類。
          最好的提示只能達到大約 40% 的成功率,這個數字與之前的研究結果相似,這可能代表了目前大型語言模型的性能水平。

          3. 審問者的人口統(tǒng)計特征

          雖然研究收集了一些審問者的人口統(tǒng)計數據,但這些因素似乎對審問者在區(qū)分 LLM 和人類方面的準確性沒有顯著影響。這可能表明,與 LLM 互動的經驗并不能幫助審問者更好地識別 LLM 和人類之間的區(qū)別。
          此外,結果也可能受到選擇偏見的影響,因為通過作者的社交媒體帖子招募的樣本可能過多地代表了20-30歲、男性、研究生學歷且對LLM感興趣的人。

          4. 策略

          審問者嘗試了多種策略來辨別 AI 模型,突顯了圖靈測試作為一種互動評估的靈活性。
          最有效的策略之一是使用非英語語言進行對話。其他有效策略包括利用模型缺乏與實時世界連接的特性,比如詢問時間或當前事件。
          一些審問者還采用了更直接的方法,直接詢問參與者是否是 AI。這種策略相當有效,模型通常會過于努力來說服審問者他們是人類,而不是以一種更隨意的方式回答,這可能提醒審問者去懷疑參與者可能是 AI。

          原因


          審問者正確判斷 AI 的原因最常與語言風格有關。盡管模型接受了大量的人類文本訓練,但在適應上下文的風格中仍然存在挑戰(zhàn)。
          第二常見的原因是社交情感,特別是模型的回復是通用或不自然的評論。LLM 學會了生成那些在某種程度上看起來非常可能正確或無爭議的句子,并對它們進行微調,以避免引發(fā)爭議或爭論。這通常會產生適應性廣泛的回復,但缺乏個人特征。
          審問者還關注了社交和情感因素(如幽默感或在游戲中不配合)。如圖 11 所示,人類在辨別參與者是否是人類的理由上,不論是人類還是 AI 參與者之間,都有相似分布,表明模型在許多情況下都能夠模仿這些特質。
          ▲圖11 審問者判斷參與者是人類的前 20 種理由,根據真實參與者類型細分
          上述分布提出了兩種可能性:
          1. 分布的相似性表明 AI 模型已經具有足夠的能力,使得它們可以更好地模仿社交情感線索和流暢的語言風格,讓審問者更容易將其視為人類。這意味著模型已經變得足夠聰明,在模仿人類在這方面變得更加容易。
          2. 這些線索在一般情況下對于區(qū)分 AI 并不重要,所以對于那些尚未掌握這些線索的模型來說,該測試并非很好地判定 AI。也就是說,這些特定的線索可能在模仿人類的情境中并不總是表現得特別突出。


          總結


          在這項研究中,作者深入探討了人類和 AI 之間的復雜互動。盡管圖靈測試并不是完美的智能度量標準,但它為我們提供了深刻理解智能體社交互動的框架。實驗結果表明,基于規(guī)則的 AI 系統(tǒng)(如 ELIZA),在某些情況下的表現竟也出乎意料的成功。與此同時,人類參與者被正確判斷為人類的概率僅為 63%。
          此外,AI 系統(tǒng)仍然面臨著語言風格和社交情感因素等挑戰(zhàn),這些挑戰(zhàn)可能比傳統(tǒng)人工智能判定概念更加重要,因為會直接涉及到 AI 模型在模仿人類社交互動中的能力。
          此外,AI 系統(tǒng)仍然面臨一系列挑戰(zhàn),特別是在處理語言風格和社交情感等因素時,這些挑戰(zhàn)可能比傳統(tǒng)的智能性概念更為重要,因為它們直接關系到 AI 模型在模仿人類社交互動方面的能力。
          這也凸顯了一個潛在的風險,即在人們未能意識到的情況下,AI 欺騙可能會發(fā)生。如果 AI 模型能夠成功地模仿人類的語言和情感,它們有可能會被誤認為真正的人類,這可能會導致誤導信息、虛假信息的傳播,甚至引發(fā)社會和倫理問題。
          最后,我們必須承認這項實驗還存在許多局限性,例如參與者的樣本不夠具有代表性、缺乏激勵機制。因此,雖然本文提供了一些見解,但仍需要更多充分的研究,以更好地理解智能體和社交互動的本質。不僅僅是圖靈測試,我們需要尋求更多多樣化的智能性度量標準,以更全面地了解和評估 AI 系統(tǒng)的能力。這也許能幫助我們更好地了解未來 AI 技術,確保其在各個領域的應用都能夠有益于人類社會。


          租!GPU云資源
          新上線一批A100/A800
          運營商機房,服務有保障
          掃碼了解詳情?


          點「在看」的人都變好看了哦!
          ?
          ?
          瀏覽 15662
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色婷婷av | 俺来了俺去了www色官网 | 天天爽天天爽夜夜爽毛片资源 | 成人性爱免费在线观看 | 91爽视频|