Nature|ChatGPT和生成式AI對(duì)科學(xué)意味著什么?
?? 新智元報(bào)道??
來源:科技世代千高原 編輯:好困【新智元導(dǎo)讀】研究人員對(duì)人工智能的最新進(jìn)展感到興奮,但也感到憂慮。
論文地址:https://www.biorxiv.org/content/10.1101/2023.01.21.525030v1
正如 Greene 和 Pividori 在1 月 23 日的預(yù)印本中所報(bào)道的那樣,這個(gè)助手不是一個(gè)人,而是一種名為 GPT-3 的人工智能算法,該算法于 2020 年首次發(fā)布。
它是一種被大肆宣傳的生成式 AI 聊天機(jī)器人式工具,無論是被要求創(chuàng)作散文、詩歌、計(jì)算機(jī)代碼,還是編輯研究論文。
其中最著名的工具(也稱為大型語言模型或 LLM)是 ChatGPT,它是 GPT-3 的一個(gè)版本,在去年 11 月發(fā)布后一舉成名,因?yàn)樗赓M(fèi)且易于訪問。其他生成式 AI 可以生成圖像或聲音。

文章地址:https://www.nature.com/articles/d41586-021-00530-0
「我印象非常深刻,」在費(fèi)城賓夕法尼亞大學(xué)工作的 Pividori 說。「這將幫助我們提高研究人員的工作效率。」其他科學(xué)家表示,他們現(xiàn)在經(jīng)常使用 LLM,不僅是為了編輯手稿,也是為了幫助他們編寫或檢查代碼以及集思廣益。 「我現(xiàn)在每天都用 LLM,」位于雷克雅未克的冰島大學(xué)的計(jì)算機(jī)科學(xué)家 Hafsteinn Einarsson 說。 他從 GPT-3 開始,但后來改用 ChatGPT,這有助于他編寫演示幻燈片、學(xué)生考試和課程作業(yè),并將學(xué)生論文轉(zhuǎn)化為論文。「許多人將其用作數(shù)字秘書或助理,」他說。
LLM是搜索引擎、代碼編寫助手甚至聊天機(jī)器人的一部分,它可以與其他公司的聊天機(jī)器人協(xié)商以獲得更好的產(chǎn)品價(jià)格。
ChatGPT 的創(chuàng)建者,加利福尼亞州舊金山的 OpenAI,宣布了一項(xiàng)每月 20 美元的訂閱服務(wù),承諾更快的響應(yīng)時(shí)間和優(yōu)先訪問新功能
(其試用版仍然免費(fèi))。
已經(jīng)投資 OpenAI 的科技巨頭微軟在 1 月份宣布進(jìn)一步投資,據(jù)報(bào)道約為 100 億美元。
LLM注定要被納入通用的文字和數(shù)據(jù)處理軟件中。生成式 AI 未來在社會(huì)中的普遍存在似乎是有把握的,尤其是因?yàn)榻裉斓墓ぞ叽砹诉@項(xiàng)技術(shù)還處于起步階段。
但 LLM 也引發(fā)了廣泛的關(guān)注——從他們返回謊言的傾向,到擔(dān)心人們將 AI 生成的文本冒充為自己的文本。

流利但不真實(shí)
總部位于倫敦的軟件咨詢公司 InstaDeep 的研究工程師 Tom Tumiel 表示,他每天都使用 LLM 作為助手來幫助編寫代碼。
「這幾乎就像一個(gè)更好的 Stack Overflow,」他說,指的是一個(gè)流行的社區(qū)網(wǎng)站,程序員可以在該網(wǎng)站上互相回答問題。
但研究人員強(qiáng)調(diào),LLM 在回答問題時(shí)根本不可靠,有時(shí)會(huì)產(chǎn)生錯(cuò)誤的回答。「當(dāng)我們使用這些系統(tǒng)來產(chǎn)生知識(shí)時(shí),我們需要保持警惕。」
這種不可靠性體現(xiàn)在 LLM 的構(gòu)建方式上。ChatGPT 及其競(jìng)爭(zhēng)對(duì)手通過學(xué)習(xí)龐大的在線文本數(shù)據(jù)庫中的語言統(tǒng)計(jì)模式來工作——包括任何不真實(shí)、偏見或過時(shí)的知識(shí)。


缺點(diǎn)能克服嗎?
一些搜索引擎工具,例如以研究人員為中心的 Elicit,解決了 LLM 的歸因問題,首先使用它們的功能來指導(dǎo)對(duì)相關(guān)文獻(xiàn)的查詢,然后簡(jiǎn)要總結(jié)引擎找到的每個(gè)網(wǎng)站或文檔——因此產(chǎn)生明顯引用內(nèi)容的輸出(盡管 LLM 可能仍會(huì)錯(cuò)誤總結(jié)每個(gè)單獨(dú)的文檔)。 建立 LLM 的公司也很清楚這些問題。 去年 9 月,DeepMind 發(fā)表了一篇關(guān)于名為 Sparrow 的「對(duì)話智能體」的論文。 最近,首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Demis Hassabis 告訴《時(shí)代》雜志,該論文將在今年以私人測(cè)試版的形式發(fā)布。 報(bào)道稱 ,其 目標(biāo)是開發(fā)包括引用消息來源的能力在內(nèi)的功能。 其他競(jìng)爭(zhēng)對(duì)手,例如 Anthropic,表示他們已經(jīng)解決了 ChatGPT 的一些問題。

一些科技公司正在根據(jù)專業(yè)科學(xué)文獻(xiàn)對(duì)聊天機(jī)器人進(jìn)行訓(xùn)練——盡管它們也遇到了自己的問題。
去年 11 月,擁有 Facebook 的科技巨頭 Meta 發(fā)布了一個(gè)名為 Galactica 的 LLM 項(xiàng)目,該項(xiàng)目接受過科學(xué)摘要訓(xùn)練,旨在使其特別擅長(zhǎng)制作學(xué)術(shù)內(nèi)容和回答研究問題。
在
用戶讓它產(chǎn)生不準(zhǔn)確和種族主義之后,該演示已從公共訪問中撤出(盡管其代碼仍然可用)。
「不再可能通過隨意濫用它來獲得一些樂趣。開心嗎?」Meta 的首席人工智能科學(xué)家 Yann LeCun在推特上回應(yīng)批評(píng)。
安全與責(zé)任
去年,一群學(xué)者發(fā)布了一個(gè)名為 BLOOM 的替代品。研究人員試圖通過在少量高質(zhì)量的多語言文本源上對(duì)其進(jìn)行訓(xùn)練來減少有害輸出。
相關(guān)團(tuán)隊(duì)還完全開放了其訓(xùn)練數(shù)據(jù)(與 OpenAI 不同)。研究人員已敦促大型科技公司負(fù)責(zé)任地效仿這個(gè)例子——但尚不清楚他們是否會(huì)遵守。
一些研究人員表示,學(xué)術(shù)界應(yīng)該完全拒絕支持大型商業(yè) LLM。除了偏見、安全問題和受剝削的工人等問題外,這些計(jì)算密集型算法還需要大量能量來訓(xùn)練,這引發(fā)了人們對(duì)其生態(tài)足跡的擔(dān)憂。
更令人擔(dān)憂的是,通過將思維轉(zhuǎn)移給自動(dòng)聊天機(jī)器人,研究人員可能會(huì)失去表達(dá)自己想法的能力。
「作為學(xué)者,我們?yōu)槭裁磿?huì)急于使用和宣傳這種產(chǎn)品?」?荷蘭奈梅亨 Radboud 大學(xué)的計(jì)算認(rèn)知科學(xué)家 Iris van Rooij 在博客中寫道,敦促學(xué)術(shù)界抵制他們的吸引力。
進(jìn)一步的混亂是一些 LLM 的法律地位,這些 LLM 是根據(jù)從互聯(lián)網(wǎng)上抓取的內(nèi)容進(jìn)行訓(xùn)練的,有時(shí)權(quán)限不太明確。版權(quán)和許可法目前涵蓋像素、文本和軟件的直接復(fù)制,但不包括其風(fēng)格的模仿。
當(dāng)這些通過 AI 生成的模仿品通過攝取原件進(jìn)行訓(xùn)練時(shí),就會(huì)出現(xiàn)問題。包括 Stable Diffusion 和 Midjourney 在內(nèi)的一些 AI 藝術(shù)程序的創(chuàng)作者目前正在被藝術(shù)家和攝影機(jī)構(gòu)起訴;OpenAI 和微軟(連同其子公司技術(shù)網(wǎng)站 GitHub)也因創(chuàng)建其 AI 編碼助手 Copilot 而被起訴盜版軟件。英國(guó)紐卡斯?fàn)柎髮W(xué)互聯(lián)網(wǎng)法專家Lilian Edwards表示,強(qiáng)烈抗議可能會(huì)迫使法律發(fā)生變化。
強(qiáng)制誠實(shí)使用

出于科學(xué)家的目的,由反剽竊軟件開發(fā)商 Turnitin 公司開發(fā)的工具可能特別重要,因?yàn)?Turnitin 的產(chǎn)品已被世界各地的學(xué)校、
大學(xué)和學(xué)術(shù)出版商使用。
該公司表示,自 GPT-3 于 2020 年發(fā)布以來,它一
直在開發(fā)人工智能檢測(cè)軟件,預(yù)計(jì)將在今年上半年推出。
此外,OpenAI 自己也已經(jīng)發(fā)布了 GPT-2 的檢測(cè)器,并在 1 月份發(fā)布了另一個(gè)檢測(cè)工具。


評(píng)論
圖片
表情

