大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自智源社區(qū)

撰文：趙言，秦紅川，程晨

校對：賈偉

隨著BERT、GPT-3、DALL-e等超大模型的興起，自監(jiān)督學(xué)習(xí)+預(yù)訓(xùn)練模型微調(diào)適配方案，逐漸成為主流。這種范式會先在超大規(guī)模海量數(shù)據(jù)上進(jìn)行自監(jiān)督的模型預(yù)訓(xùn)練，然后適配到廣泛的下游任務(wù)。

自監(jiān)督訓(xùn)練使得基礎(chǔ)模型（Foundation Models）對顯式注釋的依賴性下降，也帶來了智能體基本認(rèn)知能力（例如，常識推理）的進(jìn)步。

但與此同時卻也導(dǎo)致了基礎(chǔ)模型的「涌現(xiàn)」與「同質(zhì)化」特性。所謂「涌現(xiàn)」，意味著一個系統(tǒng)的行為是隱性推動的，而不是顯式構(gòu)建的；所謂「同質(zhì)化」，即基礎(chǔ)模型的能力是智能的中心與核心，大模型的任何一點改進(jìn)會迅速覆蓋整個社區(qū)，其隱患在于大模型的缺陷也會被所有下游模型所繼承。

目前AI研究的涌現(xiàn)性和同質(zhì)化特征

自監(jiān)督學(xué)習(xí)+微調(diào)的方案，作為一種研究范式，其帶來的利弊在當(dāng)下的人工智能研究中日益凸顯。如何才能更好地研究這種范式（以及這些模型）呢？

針對這一問題，

近期，Percy Liang、李飛飛等人將為此舉辦一場 Workshop of Foundation Models(8月23~24日)。在研討會之前，100多位學(xué)者聯(lián)名發(fā)表了一份 200 多頁的研究綜述《On the Opportunities and Risk of Foundation Models》。

關(guān)于基礎(chǔ)模型的核心觀點，可關(guān)注8 月 23 日到 24 日，HAI和CRFM這兩個組織發(fā)起的關(guān)于基礎(chǔ)模型的 workshop，討論基礎(chǔ)模型的機(jī)遇、挑戰(zhàn)、限制和社會影響。

論壇鏈接：https://crfm-stanford.github.io/workshop.html

本文為這篇綜述的解讀文章，按照原文體系結(jié)構(gòu)重新調(diào)整和梳理了基礎(chǔ)模型的時代問題，旨在幫助領(lǐng)域科研工作者更好的研究、部署以及形成安全可靠的應(yīng)用提供借鑒和研究參考。

限于長度，本文對原文內(nèi)容有刪改。

論文研究路線按照四個部分，分別闡述了基礎(chǔ)模型的能力、應(yīng)用領(lǐng)域、技術(shù)層面和社會影響四個方面，層次結(jié)構(gòu)組織如下：

能力：語言、視覺、機(jī)器人學(xué)、推理、交互、理解等；
應(yīng)用：醫(yī)療、法律、教育等；
技術(shù)：模型內(nèi)部角度(建模、訓(xùn)練、適應(yīng)、評估)，模型輸入輸出角度（數(shù)據(jù)），模型的系統(tǒng)性分析角度（數(shù)據(jù)、安全與隱私、穩(wěn)健性、理論、可解釋性）
社會影響：不平等、濫用、環(huán)境、法規(guī)、經(jīng)濟(jì)、倫理道德等。

文章組織結(jié)構(gòu)

論文鏈接：https://arxiv.org/pdf/2108.07258.pdf

基礎(chǔ)模型的能力

基礎(chǔ)模型沒有一個精確的技術(shù)定義，而是很多大型模型的代稱，它們唯一的共同特征是「自我監(jiān)督性」。基礎(chǔ)模型在學(xué)習(xí)過程中會體現(xiàn)出來各個不同方面的能力，這些能力為下游的應(yīng)用提供了動力和理論基礎(chǔ)。本文會討論這些基礎(chǔ)模型的能力，以及這些能力對于下游任務(wù)的影響、優(yōu)勢和局限性，并給出未來可能的研究重點方向。

1.1 語言能力

語言是大多數(shù)人類交流和互動的基礎(chǔ)，是人類思維的核心。下圖是人類語言學(xué)習(xí)的基礎(chǔ)模型示意：

基礎(chǔ)模型的語言數(shù)據(jù)

文章從自然語言的屬性展開，分析了基礎(chǔ)模型在NLP領(lǐng)域所產(chǎn)生的影響，即基礎(chǔ)模型在NLP領(lǐng)域表現(xiàn)出了強(qiáng)大的通用性和適用性。文章進(jìn)一步探討了語言變體和多語種的問題，并對未來模型的高效理解、學(xué)習(xí)人類語言學(xué)習(xí)的動態(tài)方法等研究方向做了深入探討。

1.2 視覺能力

視覺是生物體理解其環(huán)境的主要模式之一，但是將同樣的能力轉(zhuǎn)移到機(jī)器上非常具有挑戰(zhàn)性，下圖表示通視覺基礎(chǔ)模型視覺知識的提煉。

視覺基礎(chǔ)模型具備一種潛力，即提取原始多模態(tài)感知信息并轉(zhuǎn)化為視覺知識，可有效支持傳統(tǒng)感知任務(wù)，并能夠在具有挑戰(zhàn)性的高階技能方面取得新進(jìn)展。

文章概述了計算機(jī)視覺領(lǐng)域的關(guān)鍵能力和方法，闡明了計算機(jī)視覺領(lǐng)域的幾大關(guān)鍵任務(wù)，包括：語義理解任務(wù)，含有幾何、運(yùn)動等元素的三維任務(wù)，多模態(tài)集成任務(wù)等，基礎(chǔ)模型在這些任務(wù)中可以起到重要作用。

但文章也同時指出基礎(chǔ)模型處于初級階段，可能會整合和影響視覺模型，如面向醫(yī)療保健和家庭環(huán)境的外圍（ ambient ）智能領(lǐng)域；移動和消費(fèi)領(lǐng)域；可互動的智能體中領(lǐng)域等。未來發(fā)展大規(guī)模動態(tài)視覺輸入的高效建模，將視覺有效推廣到自然場景和人類層面的技術(shù)將是前景。

1.3 機(jī)器人

機(jī)器人研究中的一個長期挑戰(zhàn)是賦予機(jī)器人處理現(xiàn)實世界環(huán)境中遇到的無數(shù)不同情況的能力，基礎(chǔ)模型在機(jī)器人方面的應(yīng)用關(guān)鍵挑戰(zhàn)在于數(shù)據(jù)采集，安全性和魯棒性方面，如圖所示，開發(fā)通用機(jī)器人的關(guān)鍵是根據(jù)任務(wù)需求建立模型，基礎(chǔ)模型具備可以使解決新任務(wù)的學(xué)習(xí)過程更加高效和可靠。

基礎(chǔ)模型在機(jī)器人應(yīng)用的關(guān)鍵挑戰(zhàn)

為了基礎(chǔ)模型的順利部署，一方面，必須收集足夠大小和多樣性的機(jī)器人數(shù)據(jù)集，這些需要合適的機(jī)器人通過傳感器感知環(huán)境狀態(tài)和順利學(xué)習(xí)，另一方面還要需要合理機(jī)制在確?，F(xiàn)實世界中合理安全地部署學(xué)習(xí)過程。

1.4 推理和搜索

推理和搜索一直是人工智能歷史上的一個中心主題，許多推理問題造成了無限的搜索空間，系統(tǒng)必須處理各種各樣的開放式選擇。

搜索推理任務(wù)

文章從當(dāng)前的任務(wù)展開，詳細(xì)闡述了通用模型的優(yōu)勢，即人們可以快速建立最優(yōu)決策的分布模型，模型可以不同的在任務(wù)和領(lǐng)域之間傳遞和共享，對于學(xué)習(xí)深層的語義信息幫助極大等。

但是由于高質(zhì)量數(shù)據(jù)集的稀缺，對模型的通用性提出了挑戰(zhàn)，尤其是對于提高高級推理能力更是難題，此外，模型的適用性，魯棒性等等也是需要解決的問題。

1.5 交互

隨著基礎(chǔ)模型開發(fā)的成熟，模型的容量將不斷擴(kuò)大，它們的多功能性最終可能導(dǎo)致我們與 AI 交互的方式發(fā)生根本性變化

基礎(chǔ)模型與人的交互過程

基礎(chǔ)模型將通過降低難度為開發(fā)者帶來重大機(jī)遇，降低構(gòu)建 AI 應(yīng)用的門檻，并提高應(yīng)用程序的交互上限?；A(chǔ)模型還可以增強(qiáng)用戶的能力，促進(jìn)實際交互形式的多樣化，甚至可能模糊開發(fā)者和用戶之間的界限，允許用戶積極參與模型的開發(fā)過程，優(yōu)化交互接口。

1.6 理解的原理

文章從哲學(xué)角度出發(fā)，以實用主義、內(nèi)在主義、參照主義為基礎(chǔ)，重點討論自然語言的情況，討論了語言的理解問題，并得出結(jié)論：多模態(tài)很可能是基礎(chǔ)模型理解語言的最可行戰(zhàn)略。

基礎(chǔ)模型的應(yīng)用

在眾多可以應(yīng)用基礎(chǔ)模型的應(yīng)用領(lǐng)域中，文章將重點關(guān)注三個學(xué)科——醫(yī)療保健、法律和教育，它們都是社會功能的基礎(chǔ)。針對每個模型，文章討論了基礎(chǔ)模型為該領(lǐng)域帶來的可能應(yīng)用方向以及存在的各種問題。

2.1 醫(yī)療保健

基礎(chǔ)模型的醫(yī)療應(yīng)用場景

上圖是醫(yī)療保健和生物醫(yī)學(xué)的基礎(chǔ)模型，它們的訓(xùn)練數(shù)據(jù)來自于醫(yī)療保健系統(tǒng)中的多模態(tài)數(shù)據(jù)，進(jìn)而實現(xiàn)跨醫(yī)療保健和生物醫(yī)學(xué)的各種任務(wù)。

與此同時，醫(yī)療保健和生物醫(yī)學(xué)應(yīng)用方面提出的獨(dú)特挑戰(zhàn)，推動了基礎(chǔ)模型的進(jìn)一步研究，例如在醫(yī)療保健和生物醫(yī)學(xué)中整合多模態(tài)數(shù)據(jù)，以及遵守醫(yī)學(xué)中的道德和法律規(guī)定(隱私、安全和可解釋性等)。

基礎(chǔ)模型可以通過醫(yī)療服務(wù)提供者和醫(yī)院改善對患者的護(hù)理，可以提高醫(yī)療服務(wù)提供者的效率和準(zhǔn)確性，并促進(jìn)生物醫(yī)學(xué)研究，如發(fā)現(xiàn)新藥物和疾病。在未來，研究方向?qū)⒅饕杏诙嗄B(tài)和模型的可解釋性等方面。

2.2 法律

上圖是美國法庭處理民事案件的各個步驟，基礎(chǔ)可能會在每個階段有所輔助。在這個過程中，需要處理不同模式的案件，并需要適應(yīng)新的法院審理方式或法律條款。

基礎(chǔ)模型可以通過提高法律服務(wù)質(zhì)量和降低成本的方式來提高現(xiàn)有司法和法律服務(wù)的質(zhì)量，并擴(kuò)大法律服務(wù)的覆蓋范圍。但是法律的嚴(yán)謹(jǐn)性對AI模型提出了更高的要求，而且數(shù)據(jù)標(biāo)注成本會非常的高。

2.3 教育

基礎(chǔ)模型已經(jīng)開始提高一些具體的教育任務(wù)的性能，文中討論的基礎(chǔ)模型放在兩個具體的任務(wù)上：(1)理解學(xué)生的錯誤觀念；(2)通過指導(dǎo)提高學(xué)生的理解力。

基礎(chǔ)模型教育領(lǐng)域關(guān)鍵任務(wù)

上圖說明教育的基礎(chǔ)模型可以在多種數(shù)據(jù)源上進(jìn)行培訓(xùn)，以學(xué)習(xí)教育所必需的能力:理解各種主題和不同的教學(xué)技術(shù)。這些基礎(chǔ)模型可以以一種通用的方式應(yīng)用于一系列任務(wù)和目標(biāo)。

文章除了討論基礎(chǔ)模型在教育方向可能出現(xiàn)的各種應(yīng)用外，還討論了教育方面遇到的一些挑戰(zhàn)，包括建立健全的教學(xué)技術(shù)和教學(xué)語言問題，以及其中存在的倫理問題，隱私和安全問題，教師的減少和AI模型與學(xué)生之間的適應(yīng)性問題等。

基礎(chǔ)模型的技術(shù)層面

本章旨在從技術(shù)層面討論如何更好地構(gòu)建和理解基礎(chǔ)模型。按照研究的流程范式，將涉及到的關(guān)鍵技術(shù)問題分為三個角度。

模型內(nèi)部角度：模型架構(gòu)、訓(xùn)練和適配過程；

數(shù)據(jù)角度：數(shù)據(jù)的來源與數(shù)據(jù)項組成原理；

系統(tǒng)角度：根據(jù)已有的基礎(chǔ)模型，做到基礎(chǔ)模型的體系拓展、分布式轉(zhuǎn)移，另外站在更高的系統(tǒng)層級，分析模型的安全性，抗惡意攻擊能力和魯棒性，以及模型的可解釋問題。

3.1 模型內(nèi)部層面

1）模型的構(gòu)建

為提高基礎(chǔ)模型對下游應(yīng)用場景的泛化適應(yīng)能力，基礎(chǔ)模型的架構(gòu)就顯得尤為重要。

模型必不可少的五個屬性分別是表達(dá)能力、可擴(kuò)展性、多模態(tài)性、記憶容量和組合性。

這五種屬性，站在更高的智能從抽象層級上，精煉的概括了模型模擬人類智能的途徑，表現(xiàn)力具體指模型網(wǎng)絡(luò)結(jié)構(gòu)可以靈活地捕獲和表示各種信息，多模態(tài)指連接各種模式和領(lǐng)域的知識和數(shù)據(jù)，記憶力指模型可以儲存大量積累的知識，組合性代表模型知識可以很好的泛化到新的環(huán)境、任務(wù)和環(huán)境中。

以上諸多研究內(nèi)容被抽象為五個屬性，對模型的研究可以從不同的維度切入，這些領(lǐng)域的進(jìn)步將極大地蹄凍基礎(chǔ)模型的綜合表達(dá)能力的飛躍。

基礎(chǔ)模型的五個關(guān)鍵特性: 表現(xiàn)能力（expressivity）、可擴(kuò)展性（scalability);、多模態(tài)（multimodality）;記憶能力（memory storage)、組合性(compositionality)。

2）模型訓(xùn)練

模型對海量數(shù)據(jù)的訓(xùn)練，目標(biāo)在于擬合真實環(huán)境的數(shù)據(jù)分布。文章從數(shù)學(xué)角度詳細(xì)說明了模型如何從數(shù)據(jù)中學(xué)習(xí)和獲取能力，并進(jìn)一步指出，基礎(chǔ)模型未來的訓(xùn)練目標(biāo)將反映兩個變化:

從系統(tǒng)參數(shù)和評價衍生原則選擇；
跨數(shù)據(jù)源、多模態(tài)、可擴(kuò)展的統(tǒng)一訓(xùn)練方法。

3）模型適應(yīng)性

模型適應(yīng)性指，根據(jù)訓(xùn)練好的基礎(chǔ)模型經(jīng)過微調(diào)（fine-tuning)的方法使得基礎(chǔ)模型在特定領(lǐng)域和需求情況下，仍能很好的執(zhí)行功能。對模型適應(yīng)性的基礎(chǔ)研究，將不僅有利于基礎(chǔ)模型的在單一任務(wù)的適配度提高，更有助于促進(jìn)基礎(chǔ)模型的評估和約束研究，減少基礎(chǔ)模型的缺陷。

在適應(yīng)性中，基礎(chǔ)模型被轉(zhuǎn)換為應(yīng)用模型（底部一行），以適配特定應(yīng)用場景的信息理解和行為約束。

4）模型評估

評估是跟蹤模型進(jìn)展、理解模型的重要途徑。同時記錄基礎(chǔ)模型已經(jīng)擁有能力和產(chǎn)生的數(shù)據(jù)偏見，有助于研究者加深基礎(chǔ)模型的原理性認(rèn)識。

基礎(chǔ)模型的評估問題，由于其應(yīng)用任務(wù)不能確定，對機(jī)器學(xué)習(xí)中標(biāo)準(zhǔn)評估范式，帶來了新的挑戰(zhàn)。

為解決上述問題，研究者將基礎(chǔ)模型的評估問題與特定任務(wù)的評估問題區(qū)別開，通過內(nèi)在評估、外在評估和評價設(shè)計明確步驟，建立了基礎(chǔ)模型的全新評估框架。

3.2 模型的數(shù)據(jù)層面

數(shù)據(jù)是基礎(chǔ)模型的命脈; 模型的訓(xùn)練數(shù)據(jù)在很大程度上決定了模型能夠獲得什么樣的能力。數(shù)據(jù)的中心性并不是基礎(chǔ)模型所獨(dú)有的，以數(shù)據(jù)為中心的人工智能研究表明，管理、理解和記錄用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)具有普遍的重要性。

3.3 模型的系統(tǒng)性分析

1）系統(tǒng)協(xié)同設(shè)計

模型和硬件的發(fā)展曲線，和算力的需求和供給情況

計算機(jī)系統(tǒng)決定了基礎(chǔ)模型實際上可以達(dá)到的性能。計算機(jī)系統(tǒng)是基礎(chǔ)模型在數(shù)據(jù)和模型大小方面擴(kuò)展的關(guān)鍵瓶頸。為了確保研究者能夠在時間和成本方面有效地培訓(xùn)下一代基礎(chǔ)模型，需要算法、模型、軟件和硬件的共同設(shè)計。

2）安全、穩(wěn)定、魯棒與隱私問題

基礎(chǔ)模型的安全和隱私問題，目前很大程度上是未知的。已有工作表明，現(xiàn)在的基礎(chǔ)模型存在安全漏洞和泄露隱私的風(fēng)險。

用于機(jī)器學(xué)習(xí)系統(tǒng)的基礎(chǔ)模型安全性和隱私問題帶來的風(fēng)險和機(jī)遇

基礎(chǔ)模型帶來的社會影響

基礎(chǔ)模型所帶來的社會影響廣泛而深遠(yuǎn)，基礎(chǔ)模型已經(jīng)開始影響到社會生活中的公平正義、經(jīng)濟(jì)、環(huán)境、法律、道德等諸多基本問題。

4.1 不平等

本節(jié)主要論述了模型在應(yīng)用領(lǐng)域不同應(yīng)用對象和場景的平等公正性。這主要包括，

（1）模型的內(nèi)在特性產(chǎn)生的偏見現(xiàn)象，即訓(xùn)練數(shù)據(jù)不完備導(dǎo)致模型對部分受眾尤其是少數(shù)人群產(chǎn)生不利影響；

（2）外在風(fēng)險，即用戶因基礎(chǔ)模型在不同的應(yīng)用領(lǐng)域不能泛化到全局導(dǎo)致領(lǐng)域特異性歧視。

基于上述危害產(chǎn)生的機(jī)制，需要進(jìn)行重大改革，并有意識地處理和糾正這些潛在的風(fēng)險,可采用的方案有：

（1）主動干預(yù)(例如采用數(shù)據(jù)為中心或以模型為中心的方案)；

（2）被動追溯，尋因改正(例如反饋和問責(zé)機(jī)制)。

4.2 濫用

本節(jié)論述了基礎(chǔ)模型的濫用現(xiàn)象，即基礎(chǔ)模型擁有的生成消息的能力，被有意地利用來對人群或個人造成損害的可能性。

基礎(chǔ)模型對人造虛假信息和惡意信息的生成過程，以及實際可能出現(xiàn)的漏檢測現(xiàn)象。

科學(xué)技術(shù)是一把雙刃劍。基礎(chǔ)生成模型的生成能力可以被用于造假，但也可以用來判別濫用并去除濫用?；A(chǔ)模型的快速學(xué)習(xí)能力(例如，允許根據(jù)人的反饋調(diào)整新的防濫用策略），可用于遏制謠言傳播，減小損害。

4.3 環(huán)境

在使用基礎(chǔ)模型之前，應(yīng)評估成本和收益。評估基礎(chǔ)模型所需的規(guī)模至關(guān)重要，在采取盡可能多的降本增效、控碳排放措施之后，仍無法攤銷模型成本，則應(yīng)考慮是否使用基礎(chǔ)模型。

部署基礎(chǔ)模型的成本-收益的可視化分析

模型的總價值可以通過首先考慮模型的凈正面社會效益以及所有環(huán)境效益，然后減去訓(xùn)練和部署模型的能源成本，減去訓(xùn)練模型所排放的碳社會成本，以及二次環(huán)境影響。如果凈成本大于收益，那么基礎(chǔ)模型開發(fā)者和大規(guī)模部署者應(yīng)該考慮減少危害的策略。這將有助于模型優(yōu)化或部署決策。

4.4 合法性

本節(jié)強(qiáng)調(diào)了（1）模型訓(xùn)練；（2）模型預(yù)測可靠性；（3）模型輸出的保護(hù)等相關(guān)問題。

制定法律，對基礎(chǔ)模型至關(guān)重要，但法律不是評估基礎(chǔ)模型訓(xùn)練、維護(hù)和使用的唯一評價尺度，社會倫理與道德約束也是必要途徑。

4.5 經(jīng)濟(jì)

基礎(chǔ)模型在社會經(jīng)濟(jì)模式下，帶來的影響主要體現(xiàn)在以下方面：

（1）技術(shù)創(chuàng)新改變生產(chǎn)力；

（2）新技術(shù)對社會職業(yè)和社會職責(zé)分工的沖擊，就業(yè)與薪資分配不合理；

（3）競爭與壟斷問題。

基礎(chǔ)模型帶來的經(jīng)濟(jì)效益，大幅提高了社會生產(chǎn)效率，有可能大幅度提高人們的生活水平，但同時也帶來了不平等加劇和權(quán)力集中的風(fēng)險。這些技術(shù)的經(jīng)濟(jì)影響不是預(yù)先確定的，而是取決于技術(shù)專家、決策者、管理者、工人和其他利益相關(guān)者如何應(yīng)對挑戰(zhàn)。

4.6 道德尺度

作者指出，

（1）基礎(chǔ)模型的研究人員應(yīng)該遵循領(lǐng)域規(guī)范，個人使用者應(yīng)當(dāng)具有數(shù)據(jù)自主權(quán)，同時也有權(quán)決定是否參照基礎(chǔ)模型輸出結(jié)果做出決策。

（2）基礎(chǔ)模型可能涉及的社會影響包含了社會生活的方方面面，希望未來的研究者能勇于拓荒，探索基礎(chǔ)模型等新技術(shù)的涌現(xiàn)可能帶來的文章中未提及的影響。

點「在看」的人都變好看了哦！

Percy Liang、李飛飛等百余位學(xué)者聯(lián)名發(fā)布：「基礎(chǔ)模型」的機(jī)遇與挑戰(zhàn)