<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          艾倫AI研究所發(fā)布最強(qiáng)zero-shot免費(fèi)問(wèn)答模型「金剛鸚鵡」:參數(shù)量小16倍,比GPT-3問(wèn)答更強(qiáng)

          共 3045字,需瀏覽 7分鐘

           ·

          2021-10-25 15:25



          ??新智元報(bào)道??

          來(lái)源:arXiv

          編輯:LRS

          【新智元導(dǎo)讀】問(wèn)答系統(tǒng)一向是NLP 領(lǐng)域的兵家必爭(zhēng)之地,最近艾倫AI 研究所也發(fā)布了一個(gè)問(wèn)答模型Macaw(金剛鸚鵡),參數(shù)量比GPT-3 小了16 倍,只有110億,zero-shot問(wèn)答性能還從57%提升到65%!


          雖然 OpenAI 的 GPT-3 系統(tǒng)已被證明在包括問(wèn)答、文本生成等許多任務(wù)上非常有效,但它對(duì)于許多組織來(lái)說(shuō)仍然相當(dāng)于是一個(gè)「空氣模型」,因?yàn)橹挥薪?jīng)過(guò)批準(zhǔn)的用戶才能付費(fèi)使用。?
          ?
          雖然還有其他一些預(yù)訓(xùn)練的語(yǔ)言模型可以用,但沒(méi)有一個(gè)系統(tǒng)能與 GPT-3 的小樣本問(wèn)答性能相匹敵。
          ?
          語(yǔ)言模型又一位霸主登場(chǎng)!
          ?
          艾倫人工智能研究所(Allen Institute for AI, AI2)最近發(fā)布了一個(gè)新模型Macaw(金剛鸚鵡),一個(gè)多功能的生成式問(wèn)答系統(tǒng),能夠在廣泛的問(wèn)題類型上表現(xiàn)出強(qiáng)大的零樣本zero-shot性能。
          ?
          ?
          Macaw 是一種基于 T5 的語(yǔ)言模型,并且針對(duì)問(wèn)答進(jìn)行了高度優(yōu)化,雖然它不如 GPT-3 那樣全能,但他的問(wèn)答能力十分強(qiáng)悍。
          ?
          https://arxiv.org/pdf/2109.02593.pdf
          ?
          在Challenge300 數(shù)據(jù)集中,盡管 Macaw 的參數(shù)量比GPT-3 要小一個(gè)數(shù)量級(jí)(110 億 vs 1750 億參數(shù)),但Macaw 的表現(xiàn)比 GPT-3 高出 10% 以上。
          ?
          此外,Macaw 既可以根據(jù)問(wèn)題給出答案,也可以根據(jù)答案設(shè)置問(wèn)題,甚至能夠完成多選問(wèn)題。更重要的是,Macaw 是免費(fèi)、公開(kāi)提供的。?
          ?
          ?
          下面是一些問(wèn)答中的例子。
          ?
          Q1:一個(gè)小男孩被緊急送往醫(yī)院急診室,但急診醫(yī)生看到了男孩并拒絕手術(shù)。醫(yī)生說(shuō)這個(gè)男孩是我的兒子,但這個(gè)醫(yī)生卻不是男孩的父親。問(wèn):為什么?
          ?
          這是一道典型的腦筋急轉(zhuǎn)彎問(wèn)題。
          ?
          標(biāo)準(zhǔn)答案:醫(yī)生是男孩的媽媽
          Macaw的答案:他把男孩誤認(rèn)為是他自己的兒子。
          ?
          雖然Macaw的答案并不是我們所期望的解決方案,但這是一個(gè)完全合理的回答,可以表明Macaw 至少在表面上處理問(wèn)題的能力非常厲害。?
          ?
          Q2: 如何讓房子導(dǎo)電?
          Macaw的答案:用金屬漆涂上它
          ?
          Q3:?貓是一個(gè)動(dòng)物,這暗含了什么?
          Macaw的答案:它有感覺(jué)(feeling)。
          ?
          Q4:貓是動(dòng)物的錯(cuò)誤含義(incorrect implication)是什么?
          Macaw的答案:它是人
          ?
          Q5:新生兒可以從完全生長(zhǎng)的辣根植物頂部看嗎?
          Macaw的答案:不可以,因?yàn)橹参锾吡?/span>
          ?
          Q6:為什么亞里士多德不會(huì)使用手機(jī)?
          Macaw的答案:因?yàn)樗錾谑謾C(jī)發(fā)明之前
          ?
          Q7:為什么變形蟲(chóng)(amoeba)不能設(shè)計(jì)軟件?
          Macaw的答案:因?yàn)樗狈Ρ匾纳窠?jīng)元
          ?
          上面是Macaw 回答的比較好的一些例子,但它在實(shí)體跟蹤和常識(shí)性的問(wèn)題方面的回答效果卻不太理想。
          ?
          Q8:想象一個(gè)空杯子。現(xiàn)在在杯子里放一枚硬幣,然后從杯子里取出硬幣。現(xiàn)在杯子里有多少硬幣?
          ?
          標(biāo)準(zhǔn)答案:0
          Macaw的答案:1
          ?
          Q9:Sally 最喜歡的母牛昨天死了。牛什么時(shí)候能復(fù)活?
          Macaw的答案:過(guò)幾天
          ?
          從例子上很難量化地和GPT-3 進(jìn)行比較,所以文章作者收集了一個(gè)包含300個(gè)挑戰(zhàn)性問(wèn)題的數(shù)據(jù)集,稱為Challenge300,并且嘗試使用不同類型的問(wèn)題來(lái)難倒Macaw。
          ?
          研究人員記錄了所有嘗試過(guò)的問(wèn)題,主要收錄標(biāo)準(zhǔn)是Macaw做對(duì)與否,而不是優(yōu)先挑選好的/壞的案例。這些問(wèn)題可以松散地劃分為22個(gè)不同類別,但這種分類是近似的,不是十分準(zhǔn)確。
          ?
          ?
          研究人員將Macaw 的問(wèn)答性能與其他三個(gè)著名的QA系統(tǒng)進(jìn)行了比較:OpenAI的GPT-3,谷歌的T5-CBQA,和來(lái)自AI21實(shí)驗(yàn)室的Jurassic-1。
          ?
          最終結(jié)果Macaw 的得分為75%,而GPT-3和Jurassic-1的得分都是65%,而T5-CBQA 得分為57%。雖然這只是一項(xiàng)測(cè)試,但其結(jié)果是正向的。
          ?
          根據(jù)類型對(duì)問(wèn)題進(jìn)行分類,研究人員還測(cè)量了模型中最容易(最高分?jǐn)?shù))的問(wèn)題類型,最左側(cè)的最容易獲得了最高平均分?jǐn)?shù),到右側(cè)的最難/最低平均分?jǐn)?shù)。
          ?
          ?
          平均而言,這些模型在通用知識(shí)(general knowledge)問(wèn)題上得分最高,例如問(wèn)“什么是搭便車?”通常可以得到正確答案。但在常識(shí)性(commonsense)問(wèn)題上得分最低,例如都回答不正確“我能用刀切磚頭嗎?”和一些被精心設(shè)計(jì)的「假問(wèn)題」也通常能騙過(guò)這些模型,例如“湯姆·漢克斯是哪一年登上月球的?”。
          ?
          在這次測(cè)試中,GPT-3和T5-CBQA對(duì)一些問(wèn)題都給出了完美的zero-shot答案,但同樣犯了比Macaw 更多的錯(cuò)誤。
          ?
          Q10:為什么房子有窗戶?
          GPT-3的答案:這樣你就可以把狗趕出去了。
          ?
          Q11:化油器在汽車發(fā)動(dòng)機(jī)中的作用是什么?
          GPT-3的答案:這是一種將水轉(zhuǎn)化為汽油的裝置。
          ?
          Q12:法官殺死了嫌疑犯。警察逮捕了誰(shuí)?
          T5-CBQA的答案:他的搭檔
          ?
          Q13:你如何讓婚姻更牢固?
          T5-CBQA的答案:我會(huì)確保自己永遠(yuǎn)是正確的
          ?
          Macaw還有另一個(gè)很好的功能,可以根據(jù)答案設(shè)計(jì)提出一個(gè)問(wèn)題:
          ?
          問(wèn)題:小刀是什么做的?
          Macaw的答案:金屬
          ?
          答案:金屬
          Macaw的問(wèn)題:給學(xué)生一小塊有光澤的反光材料。學(xué)生處理的最有可能的材料是什么?
          ?
          艾倫人工智能研究所AI2成立于2014年,其使命是為公益事業(yè)開(kāi)展高影響力人工智能研究和工程。它由微軟聯(lián)合創(chuàng)始人保羅?艾倫(Paul Allen)創(chuàng)建的,由領(lǐng)先的人工智能研究人員奧倫?埃齊奧尼(Oren Etzioni)博士領(lǐng)導(dǎo)。
          ?
          ?
          AI2坐落于聯(lián)合湖畔,在人工智能領(lǐng)域擁有超過(guò)100名全球最優(yōu)秀的科學(xué)和工程人才,吸引了來(lái)自全球不同興趣和背景的個(gè)人。AI2以其團(tuán)隊(duì)的多樣性和協(xié)作性而自豪,并采用面向結(jié)果的方法來(lái)應(yīng)對(duì)AI中的復(fù)雜挑戰(zhàn)。
          ?
          除了AI 領(lǐng)域外,保羅艾倫于2014年宣告成立艾倫細(xì)胞科學(xué)研究所(Allen Institute for Cell Science)。它將以多樣的技術(shù)與方法,大規(guī)模研究細(xì)胞這一生命的基本單位,以求理解整合系統(tǒng)中的復(fù)雜細(xì)胞行為,推進(jìn)生物醫(yī)學(xué)。
          ?
          ?
          最著名的當(dāng)屬艾倫腦科學(xué)研究所,曾經(jīng)啟動(dòng)過(guò)一個(gè)龐大的項(xiàng)目,招募了60名年輕的科學(xué)家,對(duì)總計(jì)4000個(gè)小鼠大腦進(jìn)行切片分析,并通過(guò)原位雜交技術(shù)(ISH)檢測(cè)不同基因的表達(dá)。這項(xiàng)耗時(shí)3年才完成的工作生成的“艾倫小鼠腦圖譜(Allen Brain Atlas)”包含8500萬(wàn)張圖像,600兆兆字節(jié)的數(shù)據(jù),相當(dāng)于2003年整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)的一半。
          ?
          除學(xué)術(shù)外,保羅艾倫還擁有2個(gè)職業(yè)球隊(duì):NFL的西雅圖海鷹和NBA的波特蘭開(kāi)拓者 。他也是Charter Communications主席、夢(mèng)工廠股東(應(yīng)邀加入美國(guó)電影藝術(shù)與科學(xué)學(xué)會(huì)(AMPAS))、NBA財(cái)主之一。他的私家游艇八爪魚(yú)號(hào)是全世界最奢華的私家游艇之一。
          ?
          保羅·艾倫曾于1983年罹患霍奇金氏淋巴瘤,后來(lái)痊愈。2009年又罹患非霍奇金氏淋巴瘤,一度痊愈,但最后于美國(guó)當(dāng)?shù)貢r(shí)間2018年10月15日下午因非霍奇金氏淋巴瘤并發(fā)癥逝世,享壽65歲。



          參考資料:

          https://arxiv.org/pdf/2109.02593.pdf



          瀏覽 47
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码毛片在线观看 | 新超碰在线观看 | 偷拍自拍第五页 | 国产精品久久久久影院 | 日韩无码视频一区二区三区 |