OpenAI超級(jí)對(duì)齊負(fù)責(zé)人:“駕馭”超級(jí)智能的四年計(jì)劃
來(lái)源:OneFlow 本文約18000字,建議閱讀30+分鐘
本文探討了OpenAI的超級(jí)對(duì)齊計(jì)劃的具體內(nèi)容以及挑戰(zhàn)。

隨著AI領(lǐng)域的快速發(fā)展,OpenAI預(yù)言超級(jí)智能將在十年內(nèi)出現(xiàn)。對(duì)人類(lèi)而言,超級(jí)智能既是機(jī)遇也是挑戰(zhàn),它可以幫助人類(lèi)解決很多重大問(wèn)題,但也可能產(chǎn)生巨大風(fēng)險(xiǎn),因此,超級(jí)智能對(duì)齊問(wèn)題成為人們當(dāng)下關(guān)注的重點(diǎn),我們需要確保超級(jí)智能與人類(lèi)整體意志保持一致,讓它們理解和滿(mǎn)足人類(lèi)的愿望與需求。
近期,OpenAI承諾將目前為止獲得的計(jì)算資源中的20%用于對(duì)齊超級(jí)智能,并成立了一個(gè)名為“超級(jí)對(duì)齊(Superalignment)”的團(tuán)隊(duì),宣稱(chēng)將在四年內(nèi)解決超級(jí)智能對(duì)齊問(wèn)題。他們計(jì)劃先訓(xùn)練一個(gè)大致與人類(lèi)水平相當(dāng)?shù)腁I自動(dòng)對(duì)齊研究員,再借助自動(dòng)對(duì)齊研究員解決超級(jí)智能對(duì)齊問(wèn)題。
超級(jí)對(duì)齊團(tuán)隊(duì)由OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家Ilya Sutskever和Alignment負(fù)責(zé)人Jan Leike共同領(lǐng)導(dǎo),后者此前在DeepMind工作四年,研究人類(lèi)反饋的強(qiáng)化學(xué)習(xí)以及遞歸獎(jiǎng)勵(lì)建模。
在探討AI風(fēng)險(xiǎn)的AXRP播客節(jié)目中,UC伯克利博士生Daniel Filan與Jan Leike探討了OpenAI的超級(jí)對(duì)齊計(jì)劃的具體內(nèi)容以及挑戰(zhàn)。(以下內(nèi)容經(jīng)授權(quán)后由OneFlow編譯發(fā)布,轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)。https://axrp.net/episode/2023/07/27/episode-24-superalignment-jan-leike.html)
Daniel Filan:超級(jí)對(duì)齊(superalignment)團(tuán)隊(duì)希望達(dá)成的目標(biāo)是什么?
Jan Leike:我們的宏觀目標(biāo)是在四年內(nèi)(即2027年中旬之前)解決超級(jí)智能對(duì)齊問(wèn)題。OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家Ilya Sutskever將與我共同領(lǐng)導(dǎo)這一項(xiàng)目。OpenAI已承諾將目前為止計(jì)算資源的20%用于對(duì)齊超級(jí)智能。
我們的總體計(jì)劃是,先訓(xùn)練一個(gè)大致與人類(lèi)水平相當(dāng)?shù)腁I自動(dòng)對(duì)齊研究員,再借助自動(dòng)對(duì)齊研究員找出對(duì)齊超級(jí)智能的方法。
我們希望,盡可能將進(jìn)行對(duì)齊工作所需的任務(wù)轉(zhuǎn)交給一個(gè)自動(dòng)化系統(tǒng)。通常情況下,使用LLM(語(yǔ)言大模型)或構(gòu)建通用AI系統(tǒng)時(shí),它們的技能概況與人類(lèi)并不完全相同,在某些方面會(huì)遠(yuǎn)優(yōu)于人類(lèi),比如在翻譯以及掌握事實(shí)等方面相比人類(lèi)具有明顯優(yōu)勢(shì)。然而,它們?cè)谄渌蝿?wù)上的表現(xiàn)則明顯較差,比如現(xiàn)在的語(yǔ)言模型在算術(shù)方面劣勢(shì)明顯。
我們需要思考的是,哪些任務(wù)可以交給AI系統(tǒng)運(yùn)行,按照什么順序進(jìn)行?隨著我們逐步推進(jìn)這一進(jìn)程,人類(lèi)研究人員會(huì)逐漸將重心轉(zhuǎn)交給AI系統(tǒng)以外的任務(wù),將更多的時(shí)間和精力投入到更具挑戰(zhàn)性的領(lǐng)域。如此,AI系統(tǒng)在整個(gè)工作中承擔(dān)的份額會(huì)不斷擴(kuò)大,人類(lèi)研究人員取得實(shí)際進(jìn)展也將越來(lái)越高效。
為了讓系統(tǒng)真正發(fā)揮作用,需要實(shí)現(xiàn)99%甚至99.9%任務(wù)的自動(dòng)化,這樣就可以實(shí)際上獲得10倍、100倍乃至1000倍的研究產(chǎn)出。
Daniel Filan:你們想實(shí)現(xiàn)什么類(lèi)型的任務(wù)?
Jan Leike:任務(wù)類(lèi)型非常廣泛,我會(huì)把它們分為兩類(lèi)。第一類(lèi)任務(wù)更像是傳統(tǒng)機(jī)器學(xué)習(xí)工程研究,試圖增強(qiáng)AI系統(tǒng)的能力;第二類(lèi)則囊括對(duì)齊工作所需的全部?jī)?nèi)容。因此,第一類(lèi)任務(wù)包括實(shí)施機(jī)器學(xué)習(xí)實(shí)驗(yàn)、運(yùn)行實(shí)驗(yàn)并查看結(jié)果。第二類(lèi)任務(wù)包含了非常重要的高層次問(wèn)題,即如何找出改進(jìn)可擴(kuò)展監(jiān)督的實(shí)驗(yàn),增強(qiáng)可解釋性。
另外,還有更多的具體問(wèn)題,假設(shè)你處于研究的某個(gè)特定階段,比如,你剛剛完成了一篇論文,然后可能會(huì)思考,“如果繼續(xù)沿著這個(gè)方向推進(jìn),接下來(lái)需要做什么?” 因此我預(yù)計(jì),機(jī)器學(xué)習(xí)在第一類(lèi)任務(wù),即自動(dòng)設(shè)計(jì)和運(yùn)行實(shí)驗(yàn)方面,將表現(xiàn)十分出色。而我們的工作是,在以不同方式加速對(duì)齊的過(guò)程中,找出自動(dòng)化處理第二類(lèi)任務(wù)的方法。
Daniel Filan:“人類(lèi)水平”這個(gè)詞究竟應(yīng)該如何界定?如果在某些任務(wù)上AI的表現(xiàn)超越人類(lèi),這會(huì)對(duì)你造成困擾嗎,還是會(huì)讓你感到欣慰?
Jan Leike:問(wèn)題的關(guān)鍵在于,系統(tǒng)在對(duì)齊研究中扮演的角色有多大風(fēng)險(xiǎn)?如果它只是了解很多事實(shí),這并不可怕,但真正需要弄清楚的是,如果我們讓系統(tǒng)接管部分甚至幾乎全部的對(duì)齊研究,它是是否會(huì)試圖欺騙我們?是否會(huì)乘機(jī)篡權(quán)?所以,問(wèn)題在于執(zhí)行審查任務(wù)所需的技能組合,與獲取大量對(duì)齊研究幫助所需的技能組合相比程度如何。
如果深入探討這個(gè)問(wèn)題,我們會(huì)考慮模型的實(shí)際表現(xiàn)有多出色?它是否會(huì)編織一系列連貫的謊言、欺騙我們、假裝相信某件事但實(shí)際上渴望做另一件事?另外,還有一個(gè)非常關(guān)鍵的能力,即自我泄露(self-exfiltration)。我們需要弄清楚,模型能否突破安全預(yù)防措施,訪(fǎng)問(wèn)自己的權(quán)重,并嘗試將其復(fù)制到互聯(lián)網(wǎng)的其他地方?它是否擅長(zhǎng)說(shuō)服那些能夠訪(fǎng)問(wèn)權(quán)重的工程師下載并發(fā)送到其他地方?因此,我們可以具體衡量模型在這些方面的表現(xiàn),然后與其幫助我們進(jìn)行對(duì)齊研究方面的表現(xiàn)進(jìn)行比較。
Daniel Filan:這一研究領(lǐng)域的批評(píng)者認(rèn)為,如果想構(gòu)建一個(gè)人類(lèi)水平的自動(dòng)對(duì)齊研究員,它需要相當(dāng)聰明且富創(chuàng)造力,能夠構(gòu)想出我們從未想過(guò)的事物,為實(shí)現(xiàn)目標(biāo)進(jìn)行規(guī)劃。同時(shí),它還必須擅長(zhǎng)解決對(duì)齊問(wèn)題。有人認(rèn)為,這些要素的組合本身就是可怕和危險(xiǎn)的,如果任務(wù)是對(duì)齊自動(dòng)對(duì)齊研究員,還有沒(méi)有其他問(wèn)題需要它來(lái)解決?
Jan Leike:歸根結(jié)底,這是一個(gè)實(shí)證問(wèn)題。在擴(kuò)大模型規(guī)模時(shí),很難準(zhǔn)確知道哪些技能會(huì)以什么樣的順序被開(kāi)發(fā)出來(lái)。目前很多工作都致力于預(yù)測(cè)模型的新興能力,這讓我非常興奮。這將為我們提供實(shí)際上能夠預(yù)測(cè)下一個(gè)預(yù)訓(xùn)練模型的能力。同時(shí),我們也可以提出一些高層次的論點(diǎn),例如,一旦模型變得非常強(qiáng)大,我們就能將許多對(duì)齊研究交給它來(lái)完成,那么模型是否也能改進(jìn)其自身的能力?能否進(jìn)行大量機(jī)器學(xué)習(xí)研究,例如改進(jìn)計(jì)算效率等?然后,我們可以利用這些研究成果,預(yù)訓(xùn)練功能更強(qiáng)大的模型。
這個(gè)方案聽(tīng)起來(lái)很誘人,但我認(rèn)為實(shí)際操作起來(lái)會(huì)非常復(fù)雜,你不可能每周都進(jìn)行大規(guī)模的預(yù)訓(xùn)練。因此在真正獲得結(jié)果之前,可能要等上幾個(gè)月,與此同時(shí),仍然可以使用現(xiàn)有系統(tǒng)。另一個(gè)開(kāi)放性問(wèn)題:目前有多少簡(jiǎn)單易行的方法來(lái)提升計(jì)算效率?
目前來(lái)看,致力于讓人工智能更快、更強(qiáng)大的現(xiàn)有社群已經(jīng)相當(dāng)龐大,而對(duì)齊社群的規(guī)模相對(duì)較小。因此,如果你能夠?qū)⑦@些任務(wù)自動(dòng)化,受益更多的實(shí)際上是對(duì)齊領(lǐng)域,因?yàn)檫@是一個(gè)較小的社群,我們就不再需要做這些任務(wù)了。
Daniel Filan:創(chuàng)建自動(dòng)對(duì)齊研究員幫助我們實(shí)現(xiàn)對(duì)齊,它需要幫助我們解決哪些問(wèn)題?
Jan Leike:自動(dòng)對(duì)齊研究員的長(zhǎng)期目標(biāo)是模型的創(chuàng)造力。在我看來(lái),至少對(duì)于語(yǔ)言模型或AI而言,它們比人類(lèi)更具創(chuàng)造力。如果你觀察擴(kuò)散模型生成的圖像,或者從預(yù)訓(xùn)練的基礎(chǔ)模型中采樣,其中包含了很多奇思妙想,這些創(chuàng)意恐怕從單人或小團(tuán)隊(duì)身上很難獲得。因此,它們實(shí)際上可以從整個(gè)分布中進(jìn)行采樣,而個(gè)人通常做不到這一點(diǎn)。
就長(zhǎng)期目標(biāo)而言,我們可以將一些小而明確的任務(wù)交給AI系統(tǒng),如果它們能夠?qū)⑦@些任務(wù)真正做好,其實(shí)幫助很大。這些任務(wù)可以很具體,比如“這是我們剛剛寫(xiě)的論文,請(qǐng)就接下來(lái)的步驟或新的實(shí)驗(yàn)提出一些建議。” 想象你擁有一個(gè)真正的一流研究者,你可以向他們?cè)儐?wèn)這些問(wèn)題,它們并不需要追求長(zhǎng)期目標(biāo),只需在接下來(lái)的幾千詞元范圍內(nèi)進(jìn)行優(yōu)化。
Daniel Filan:這似乎與將99.9%的對(duì)齊研究自動(dòng)化的目標(biāo)相沖突。如何實(shí)現(xiàn)對(duì)齊的AI是對(duì)齊研究中相當(dāng)困難的一部分。
Jan Leike:沒(méi)錯(cuò)。通過(guò)這些任務(wù)中的出色表現(xiàn),該系統(tǒng)為我們?cè)鎏砹撕芏鄡r(jià)值。之后可以構(gòu)建一個(gè)包含多種任務(wù)的整體組合,任務(wù)可能是“編寫(xiě)實(shí)現(xiàn)這些實(shí)驗(yàn)的代碼”,也可能是“查看結(jié)果并告訴我,或者建議下一步該做什么”。然后,你可以使用一些類(lèi)似于Auto-GPT或語(yǔ)言模型程序中的做法將其進(jìn)行組合,其中每個(gè)任務(wù)都很具體且相互獨(dú)立,因此系統(tǒng)無(wú)需追求長(zhǎng)期目標(biāo)。
舉個(gè)例子,最近OpenAI發(fā)布了一項(xiàng)在數(shù)學(xué)領(lǐng)域使用基于過(guò)程反饋的研究成果。相比于僅僅訓(xùn)練模型去判斷“系統(tǒng)是否得到了正確的解?”,然后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,他們使用了人類(lèi)反饋來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,對(duì)每一步證明的過(guò)程進(jìn)行評(píng)估。
結(jié)果表明,前者更為高效,它為AI系統(tǒng)提供了更細(xì)粒度的學(xué)習(xí)方式和更詳細(xì)的反饋。現(xiàn)在,這種分階段的訓(xùn)練方法是否能與端到端的強(qiáng)化學(xué)習(xí)競(jìng)爭(zhēng),最終得到正確的解決方案?這一點(diǎn)尚不明確。但至少,你可以使用這種逐步訓(xùn)練的方式讓系統(tǒng)完成許多人類(lèi)能力范圍內(nèi)非常有價(jià)值的事,然后將它們組合在一起。
Daniel Filan:是的。即便是這種小任務(wù),例如“查看結(jié)果并決定接下來(lái)做什么”,我本以為要做到這一點(diǎn)必須擁有大局意識(shí),需要思考“接下來(lái)什么項(xiàng)目對(duì)于四年內(nèi)解決超級(jí)對(duì)齊問(wèn)題最有幫助”。
Jan Leike:是的。但這并不意味著,你要為了四年的目標(biāo)進(jìn)行優(yōu)化和信用分配(credit assignment),更可行的是,在提示中添加更廣泛的目標(biāo)和上下文。當(dāng)你實(shí)際通過(guò)強(qiáng)化學(xué)習(xí)或RLHF改進(jìn)系統(tǒng)時(shí),不必等到某一研究項(xiàng)目結(jié)束后才決定它能否勝任,只需使用人類(lèi)反饋?zhàn)鳛楠?jiǎng)勵(lì):“這個(gè)方向看起來(lái)不錯(cuò),比我能想到的任何方向都要好”。
因此我認(rèn)為,總體目標(biāo)不是構(gòu)建一個(gè)技術(shù)范圍內(nèi)盡可能強(qiáng)大的自動(dòng)對(duì)齊研究員,而是構(gòu)建一個(gè)可以大規(guī)模擴(kuò)展的真正有價(jià)值的系統(tǒng),最重要的是,我們相信該系統(tǒng)在足夠?qū)R的情況下可以接手這些任務(wù)。
因此,如果在以上過(guò)程中引入低效性(inefficiency),這種訓(xùn)練方式實(shí)際上限制了模型的能力,我們可能會(huì)認(rèn)為,“模型可以執(zhí)行這些拆分任務(wù),但如果我們對(duì)其進(jìn)行端到端訓(xùn)練,它可能會(huì)擁有更強(qiáng)的能力”。
2
自動(dòng)對(duì)齊研究員能做什么?
Daniel Filan:你們會(huì)先解決如何大致對(duì)齊人類(lèi)水平的問(wèn)題,隨著模型變得更智能,會(huì)出現(xiàn)額外的問(wèn)題,系統(tǒng)就會(huì)開(kāi)始解決這些問(wèn)題?
Jan Leike:基本上是這樣。一個(gè)真正解決超級(jí)智能對(duì)齊問(wèn)題的方案,看起來(lái)會(huì)與今天所做的工作有很大差異。目前,ChatGPT的對(duì)齊方式主要是通過(guò)強(qiáng)化學(xué)習(xí)從人類(lèi)反饋中進(jìn)行訓(xùn)練,但這種方法無(wú)法擴(kuò)展已經(jīng)是一種廣泛共識(shí),我也認(rèn)同這一說(shuō)法,因?yàn)樗鼜母旧霞僭O(shè)了人類(lèi)真正理解系統(tǒng)的詳細(xì)運(yùn)行方式。
如果系統(tǒng)進(jìn)行了大量對(duì)齊研究,涉及數(shù)百萬(wàn)個(gè)虛擬人類(lèi)的任務(wù),那么你不可能看到其中的所有細(xì)節(jié)和詳細(xì)反饋。但我們目前正在研究的技術(shù),旨在通過(guò)對(duì)這些步驟進(jìn)行擴(kuò)展,并對(duì)齊一個(gè)大致與人類(lèi)水平相當(dāng)?shù)膶?duì)齊研究員,讓它完成這些困難任務(wù),但不會(huì)表現(xiàn)出與人類(lèi)截然不同的方式,其中,可擴(kuò)展監(jiān)督就是從人類(lèi)強(qiáng)化反饋中得出的方式。
我會(huì)將可擴(kuò)展監(jiān)督定義為一組想法和技術(shù),它允許我們利用AI來(lái)輔助人類(lèi)對(duì)困難任務(wù)進(jìn)行評(píng)估。典型的可擴(kuò)展監(jiān)督的例子包括辯論、遞歸獎(jiǎng)勵(lì)建模、迭代蒸餾。
如果我們真的要對(duì)齊超級(jí)智能,這個(gè)系統(tǒng)將遠(yuǎn)遠(yuǎn)超越人類(lèi)智能,能夠以更快的速度進(jìn)行思考,并在更大的規(guī)模上運(yùn)行,這將引入許多其他問(wèn)題,尤其是它具有很強(qiáng)的通用性,可以執(zhí)行許多任務(wù),我們不僅要弄清楚如何在對(duì)齊研究任務(wù)這種較為狹隘的分布上進(jìn)行對(duì)齊,還要處理其他對(duì)齊問(wèn)題。
如果我們能夠在其中引入一些形式化驗(yàn)證,將會(huì)非常令人興奮。也許,我們可以找到一種具有理論保證的學(xué)習(xí)算法。不過(guò),如果你投入大量的認(rèn)知?jiǎng)趧?dòng)來(lái)解決這個(gè)問(wèn)題,我不確定這方面有什么可能性和理論可行性。
總之,所有這些方法都與我們目前或?qū)⒁龅氖麓笙鄰酵ァN乙膊徽J(rèn)為一個(gè)大致與人類(lèi)水平相當(dāng)?shù)膶?duì)齊研究員會(huì)立即著手解決那些問(wèn)題。相反,我們希望研究員能夠找出如何更好地對(duì)齊其下一代,從而使其在更強(qiáng)大的智能基礎(chǔ)上解決這些問(wèn)題,取得更多進(jìn)展。因此,我們將逐步提升,最終實(shí)現(xiàn)一個(gè)能夠進(jìn)行開(kāi)創(chuàng)性研究的系統(tǒng),從而使我們有能力對(duì)齊超級(jí)智能。
Daniel Filan:OpenAI在幾篇博文中提到了自我改進(jìn)循環(huán)。首先,安全性與能力之間存在關(guān)聯(lián)。你需要智能模型來(lái)解決對(duì)齊問(wèn)題,但同時(shí)又不希望其發(fā)展過(guò)快。在《AGI及其未來(lái)規(guī)劃》一文中有這樣一句話(huà),大意是“可能會(huì)出現(xiàn)能夠加速其自身進(jìn)展的足夠智能的AGI,從而在短時(shí)間內(nèi)出現(xiàn)出乎意料的重大變化。”文中還稱(chēng),“我們認(rèn)為,較慢的發(fā)展速度更容易實(shí)現(xiàn)安全性。”我想知道,如果我們制造了這個(gè)非常智能或與人類(lèi)水平相當(dāng)?shù)膶?duì)齊研究員,然后有效地將對(duì)齊團(tuán)隊(duì)的規(guī)模增加了10倍或100倍,是否會(huì)導(dǎo)致進(jìn)入這種遞歸性自我改進(jìn)的循環(huán)?
Jan Leike:是的,這必然會(huì)發(fā)生。如果要進(jìn)行遞歸性自我改進(jìn)循環(huán),也必須大幅提升對(duì)齊能力。我個(gè)人認(rèn)為,快速發(fā)展的可能性相當(dāng)大,我們應(yīng)該為其發(fā)生做好準(zhǔn)備。即便它沒(méi)有發(fā)生,我也會(huì)為此感到欣慰。
Daniel Filan:對(duì)齊能力什么時(shí)候會(huì)快速發(fā)展?
Jan Leike:我也不確定,但你可以將其與其他機(jī)器學(xué)習(xí)項(xiàng)目進(jìn)行類(lèi)比,比如AlphaGo、Dota或StarCraft,這些系統(tǒng)的性能每周都有很大的提升。關(guān)于具體發(fā)展情況肯定存在很多不確定性,但我認(rèn)為,我們應(yīng)該為這種可能性做好準(zhǔn)備。如果真的快速發(fā)展,我們將擁有自動(dòng)對(duì)齊研究員,它們可以在每周內(nèi)完成相當(dāng)于數(shù)千年的工作,這是人類(lèi)難以企及的。
Daniel Filan:與人類(lèi)水平相當(dāng)?shù)腁I對(duì)齊研究員是否會(huì)威脅人類(lèi)的工作?到時(shí)我們是否還需要人類(lèi)超級(jí)對(duì)齊團(tuán)隊(duì)?
Jan Leike:這是個(gè)好問(wèn)題。實(shí)際上,我很樂(lè)意被AI取代。從歷史上看,通常是我們之前提到的情況:AI助手完成99%或99.9%的工作,我們只需處理剩下的工作即可。還有一點(diǎn)十分重要,即便在長(zhǎng)期運(yùn)行時(shí),我們已經(jīng)無(wú)法完全理解AI所做的一切,也要確保人類(lèi)在某種程度上保持與AI系統(tǒng)的聯(lián)系和控制。
因此,我們?nèi)匀恍枰恍┤斯?lái)嘗試?yán)斫釧I正在努力實(shí)現(xiàn)的高級(jí)目標(biāo)。這不一定是由OpenAI現(xiàn)在擁有的超級(jí)對(duì)齊團(tuán)隊(duì)來(lái)實(shí)現(xiàn),可能需要與現(xiàn)在截然不同的技能組合。但我認(rèn)為,無(wú)論如何,人類(lèi)應(yīng)始終保持某種程度的參與度。
3
如何讓AI成為AI對(duì)齊研究員
Daniel Filan:能描述一下人類(lèi)水平自動(dòng)對(duì)齊研究員的具體實(shí)施計(jì)劃嗎?
Jan Leike:基本需要兩部分的工作。第一部分是一個(gè)足夠智能的系統(tǒng),第二部分是與該系統(tǒng)對(duì)齊,讓它實(shí)際去做對(duì)齊研究,這兩部分是緊密相連的。
我并沒(méi)有從事第一部分的工作,實(shí)現(xiàn)第一部分任務(wù)可能有很多不同方式,但基本類(lèi)似于訓(xùn)練一個(gè)更大的模型,將其變得足夠智能,那肯定會(huì)實(shí)現(xiàn)。第二部分才是我真正感興趣的,問(wèn)題是,現(xiàn)在擁有了這個(gè)足夠智能的預(yù)訓(xùn)練模型,如何讓它真正以你期望的方式進(jìn)行對(duì)齊研究?或者更重要的,如何知道你能夠信任它去完成這項(xiàng)任務(wù)?
如果你將這種任務(wù)交給AI,智能AI系統(tǒng)可能會(huì)嘗試以某種方式向你展示結(jié)果和技術(shù),以便你進(jìn)行實(shí)施,但這實(shí)際上會(huì)增強(qiáng)該系統(tǒng)本身或某個(gè)相關(guān)系統(tǒng),使其在未來(lái)?yè)碛懈嘀\求權(quán)力的行為機(jī)會(huì),例如自我滲泄露。
因此,首先我們需要對(duì)齊它,并充分利用其能力盡可能高質(zhì)量地完成任務(wù)。我們需要多種對(duì)齊訓(xùn)練方法,還需要區(qū)分模型是否真正對(duì)齊了任務(wù),并努力進(jìn)行對(duì)齊研究,一個(gè)系統(tǒng)真正幫助我們并且誠(chéng)實(shí)、追求真相,另一個(gè)系統(tǒng)則表面假裝出前者的行為,但實(shí)際上想要控制世界或者(例如)進(jìn)行自我泄露等。這是兩個(gè)不同的系統(tǒng),一個(gè)是真正的對(duì)齊,另一個(gè)是虛假的對(duì)齊。
一個(gè)重要的任務(wù)就是找出區(qū)分這兩個(gè)系統(tǒng)的方法,這需要一系列驗(yàn)證技術(shù)。在某種意義上,這些方法并不直接用于訓(xùn)練AI系統(tǒng),而是通過(guò)提供某種獨(dú)立信號(hào)來(lái)判斷“模型是這兩個(gè)版本中的哪一個(gè)?”
舉例來(lái)說(shuō),可解釋性研究就是其中一種方法。如果我可以查看模型內(nèi)部并找到一些證據(jù),表明它在秘密策劃對(duì)抗我們,它將無(wú)法通過(guò)驗(yàn)證測(cè)試。
另一種技術(shù)是,根據(jù)設(shè)置方式作為訓(xùn)練或驗(yàn)證的一部分,這是由易到難的泛化問(wèn)題。如果你能理解并提高從我們可以監(jiān)督的簡(jiǎn)單問(wèn)題到難以監(jiān)督的困難問(wèn)題的模型泛化能力,就可以在簡(jiǎn)單的部分對(duì)模型進(jìn)行監(jiān)督,然后在困難的部分進(jìn)行交叉驗(yàn)證,這樣就不用擔(dān)心模型可能在背后欺騙你或嘗試做其他事。
Daniel Filan:如何實(shí)現(xiàn)可擴(kuò)展監(jiān)督?尤其當(dāng)前我們對(duì)于什么是優(yōu)秀的對(duì)齊研究缺乏共識(shí)的情況下,如何獲得優(yōu)質(zhì)的對(duì)齊研究訓(xùn)練信號(hào)?
Jan Leike:缺乏共識(shí)的原因?qū)嶋H上證明,這個(gè)問(wèn)題確實(shí)很難解決,同時(shí)也表明,這一領(lǐng)域仍處于不成熟階段,迄今為止,我們還沒(méi)有足夠的實(shí)證證據(jù)。但我認(rèn)為,對(duì)齊研究有一個(gè)非常重要的特性,我們可以利用它來(lái)實(shí)現(xiàn)可擴(kuò)展監(jiān)督,相較于對(duì)齊研究,評(píng)估對(duì)齊研究要容易得多。但這并不意味著評(píng)估是一件容易的事,但是相比完成對(duì)齊研究,先找到一篇有創(chuàng)意、實(shí)驗(yàn)設(shè)計(jì)優(yōu)良并取得了理想結(jié)果的論文要容易得多。
因此,評(píng)估比生成更容易,利用這一原則是許多可擴(kuò)展監(jiān)督理念的核心。例如,如果考慮遞歸獎(jiǎng)勵(lì)建模,就相當(dāng)于你有一種AI系統(tǒng),可以作為助手幫助你評(píng)估其他AI系統(tǒng)。由于評(píng)估比生成更容易,助手需要完成的任務(wù)相對(duì)簡(jiǎn)單,尤其當(dāng)你和它一起工作時(shí),實(shí)際上是將助手對(duì)齊到更簡(jiǎn)單的評(píng)估助手任務(wù)上,如果成功完成這個(gè)任務(wù),就可以使用人類(lèi)/助手組合在更困難的任務(wù)上監(jiān)督一個(gè)新系統(tǒng)。如果不斷重復(fù)這一過(guò)程,就能在越來(lái)越廣的任務(wù)范圍內(nèi)有效地監(jiān)督AI系統(tǒng)。
Daniel Filan:所以,我們?cè)贏I對(duì)齊研究的評(píng)估部分逐步添加越來(lái)越多的AI知識(shí),通過(guò)迭代,持續(xù)地為其提供優(yōu)質(zhì)的訓(xùn)練信號(hào)。
Jan Leike:具體來(lái)說(shuō),RLHF是最簡(jiǎn)單的方法,不需要使用任何助手。你的AI系統(tǒng)執(zhí)行某項(xiàng)任務(wù),人類(lèi)觀察結(jié)果并進(jìn)行判斷,這就是你的訓(xùn)練信號(hào)。
下一步是訓(xùn)練一個(gè)最簡(jiǎn)單的助理模型作為評(píng)價(jià)模型(critique model)。這個(gè)獨(dú)立的語(yǔ)言模型會(huì)先審查第一個(gè)AI系統(tǒng)的結(jié)果,然后編寫(xiě)評(píng)論。人類(lèi)一直不擅長(zhǎng)發(fā)現(xiàn)代碼中的錯(cuò)誤,這也是為什么世界上會(huì)有那么多錯(cuò)誤代碼。但現(xiàn)在,評(píng)論系統(tǒng)能夠?qū)懗鲈u(píng)論并指出錯(cuò)誤,人們發(fā)現(xiàn)這些錯(cuò)誤就容易多了。我們可以輕松地意識(shí)到“這是個(gè)bug。我們應(yīng)該修復(fù)它”。
代碼通常是根據(jù)某些自然語(yǔ)言規(guī)范編寫(xiě)的,這些規(guī)范的真實(shí)含義可能有些模糊,對(duì)于某些問(wèn)題是否為bug的界定可能也不明確。重要的是,將評(píng)論模型作為助手使用,可以擴(kuò)大你能夠監(jiān)督的任務(wù)范圍,因?yàn)槟慊旧峡梢哉业紸I系統(tǒng)會(huì)發(fā)現(xiàn)或評(píng)論的代碼中的所有問(wèn)題,盡管這不完全等同于模型能發(fā)現(xiàn)所有含bug的代碼。
更棒的是,有很多實(shí)證方法可以衡量這種方法的有效性。其中一種方法,可參考我們?nèi)ツ臧l(fā)表的關(guān)于評(píng)價(jià)模型的論文,即進(jìn)行有針對(duì)性的干擾隨機(jī)對(duì)照實(shí)驗(yàn)。你可以選擇一個(gè)編碼任務(wù)(在論文中,我們并沒(méi)有使用編碼任務(wù),任務(wù)的具體內(nèi)容并不重要),然后,就會(huì)得到一個(gè)系統(tǒng)回應(yīng)。這個(gè)回應(yīng)不必完美,我們暫且假設(shè)它是完美的。接下來(lái),你有意在回應(yīng)中引入一些微小的bug或錯(cuò)誤,使其成為一個(gè)不良的回應(yīng),但這些錯(cuò)誤對(duì)于人類(lèi)來(lái)說(shuō)很難察覺(jué)。
Daniel Filan:怎樣引入bug呢?
Jan Leike:最簡(jiǎn)單的方法就是讓人類(lèi)完成這個(gè)任務(wù),但最終目標(biāo)是用模型實(shí)現(xiàn),后面會(huì)詳細(xì)解釋這一點(diǎn)。現(xiàn)在有一對(duì)回應(yīng):一個(gè)是原始回應(yīng),另一個(gè)是刻意讓它變差的回應(yīng)。接下來(lái),你隨機(jī)選擇其中一個(gè)回應(yīng),并展示給人類(lèi),或是輔助使用AI的人,或者采用其他可擴(kuò)展監(jiān)督方法。然后觀察他們發(fā)現(xiàn)問(wèn)題的可能性有多大,也可以直接問(wèn)他們“這里有錯(cuò)誤嗎?”通過(guò)這種方式,可以發(fā)現(xiàn),如果有更好的輔助方法,人們發(fā)現(xiàn)錯(cuò)誤的頻率會(huì)有多高。
甚至可以更進(jìn)一步,直接比較模型在識(shí)別問(wèn)題方面的能力,可以訓(xùn)練模型成為一個(gè)判別器,區(qū)分好的版本和有缺陷的版本。通過(guò)測(cè)量其判別的準(zhǔn)確率,就能得到判別器的性能。然后,我們?cè)儆^察模型或RLHF版本模型能否寫(xiě)出有關(guān)代碼缺陷的評(píng)論,這樣就可以知道模型實(shí)際上對(duì)缺陷的了解程度。得到評(píng)論準(zhǔn)確率后,可以比較這兩個(gè)數(shù)值,這被稱(chēng)為判別器-評(píng)價(jià)器鴻溝(discriminator-critique gap)。
如果差值較大,意味著模型可能探測(cè)到很多問(wèn)題,或者對(duì)這些問(wèn)題有所了解,或者使用其他你想要的隱喻但沒(méi)有告知。如果我們讓它寫(xiě)一個(gè)評(píng)論,它不會(huì)表露這些問(wèn)題。
”判別器-評(píng)價(jià)器”差距過(guò)大會(huì)導(dǎo)致令人擔(dān)憂(yōu)的后果,這意味著,你的可擴(kuò)展監(jiān)督機(jī)制在某種程度上存在很大的缺陷,有很多問(wèn)題在你的監(jiān)督下遺漏了,或者助手在某種意義上不夠?qū)R,因?yàn)樗](méi)有盡力幫助你。
如果“判別器-評(píng)價(jià)器”差距較小,這意味著,如果模型知道存在問(wèn)題,會(huì)毫不猶豫地指出。假如一個(gè)大小相似或者相同的基礎(chǔ)模型試圖在你的代碼中植入問(wèn)題,或者試圖插入難以發(fā)現(xiàn)的木馬,如果運(yùn)行了這段代碼,木馬可能會(huì)被觸發(fā),從而接管或執(zhí)行其他操作。我們可以假設(shè),如果模型自己植入了這些木馬,它應(yīng)該會(huì)知道存在這些潛在問(wèn)題。因此,如果我們有另一個(gè)模型副本,并且測(cè)量得到一個(gè)較小的判別器-評(píng)價(jià)器差距,就會(huì)更有信心,因?yàn)楦鶕?jù)合理推斷,另一個(gè)模型的副本理應(yīng)會(huì)寫(xiě)出評(píng)論。
假設(shè)判別器訓(xùn)練實(shí)際上可以從模型中剔除這種情況,我認(rèn)為,有充分的理由相信,如果你為判別器進(jìn)行微調(diào),實(shí)際上可以通過(guò)同時(shí)微調(diào)所有的權(quán)重來(lái)訪(fǎng)問(wèn)模型中的所有激活。因此,如果知識(shí)確實(shí)存在于模型的激活中,如果你做得正確并且擁有足夠的數(shù)據(jù),通過(guò)對(duì)判別器進(jìn)行微調(diào),它應(yīng)該能夠提取出這些知識(shí)。
實(shí)際上,可以進(jìn)行一些粗略的計(jì)算來(lái)確定需要的數(shù)據(jù)量。假設(shè)一個(gè)單獨(dú)的神經(jīng)元知道代碼是否有問(wèn)題,你只需要對(duì)總神經(jīng)元數(shù)量取對(duì)數(shù),就能縮小范圍并找到它,所需的數(shù)據(jù)量并不多。
Daniel Filan:實(shí)際上,這涉及我對(duì)整個(gè)方案的一個(gè)疑問(wèn)。我們之所以不推薦使用RLHF,是因?yàn)樗赡軣o(wú)法區(qū)分正確的東西和看似對(duì)人類(lèi)有好處的東西,因?yàn)槿祟?lèi)在評(píng)價(jià)方面表現(xiàn)較差。
通過(guò)這種遞歸評(píng)價(jià)的方式,我們先訓(xùn)練一個(gè)判別器,再訓(xùn)練一個(gè)評(píng)價(jià)器模型。一種情況是,我們訓(xùn)練一個(gè)模型,讓它寫(xiě)出真正好的評(píng)價(jià),然后我們與它合作,訓(xùn)練一個(gè)能寫(xiě)出更優(yōu)質(zhì)評(píng)價(jià)的模型。但我擔(dān)心,也許還存在另一種情況,我們訓(xùn)練了一個(gè)模型,不經(jīng)意間讓它寫(xiě)出了聽(tīng)起來(lái)不錯(cuò)的偽評(píng)價(jià),然后我們與它合作,進(jìn)一步提高我們對(duì)聽(tīng)起來(lái)不錯(cuò)的評(píng)價(jià)的判別能力。接下來(lái),我們訓(xùn)練這個(gè)判別器,用來(lái)區(qū)分哪些代碼沒(méi)有問(wèn)題,哪些代碼有問(wèn)題。我們更應(yīng)該擔(dān)心的是那些看起來(lái)沒(méi)問(wèn)題的代碼。
Jan Leike:這個(gè)擔(dān)憂(yōu)非常重要且合理。某種程度來(lái)說(shuō),這是我們需要在可擴(kuò)展監(jiān)督方面解決的關(guān)鍵問(wèn)題之一,也是我對(duì)實(shí)現(xiàn)這些技術(shù)并進(jìn)行實(shí)證驗(yàn)證感到興奮的原因,因?yàn)槲覀儗⒛軌蛄炕@種效果在實(shí)踐中的表現(xiàn)程度。
我們可以采取一個(gè)具體而簡(jiǎn)單的方法進(jìn)行測(cè)量,即有意訓(xùn)練一個(gè)具有欺騙性的對(duì)齊模型,然后觀察可擴(kuò)展監(jiān)督能否標(biāo)識(shí)出它,或者我們需要付出多大的努力,才能使這個(gè)模型具有欺騙性對(duì)齊,從而通過(guò)可擴(kuò)展監(jiān)督。
Daniel Filan:還可以進(jìn)行一些三明治集成實(shí)驗(yàn),讓人工智能回答法律問(wèn)題。一部分人對(duì)法律知之甚少,然后再找一些非常擅長(zhǎng)法律的人,希望他們檢查AI能否成功愚弄前一部分人。
Jan Leike:是的。這些實(shí)驗(yàn)非常有趣且部分實(shí)驗(yàn)已經(jīng)展開(kāi),不過(guò)這一設(shè)置存在一些根本性問(wèn)題。
首先,你必須真正信任你的專(zhuān)家,但專(zhuān)家有時(shí)也會(huì)犯錯(cuò)。其次,你必須有充分的領(lǐng)域重疊。我們?cè)谶@方面進(jìn)行了一些初步實(shí)驗(yàn),讓非編程人員使用輔助工具尋找代碼中的問(wèn)題,但他們甚至不知道如何提出正確的問(wèn)題。
另一個(gè)問(wèn)題是,對(duì)于我真正感興趣的任務(wù),根本沒(méi)有真實(shí)數(shù)據(jù)(ground truth)。我們現(xiàn)在進(jìn)行的對(duì)齊研究,可能會(huì)“讓一些對(duì)齊研究人員來(lái)標(biāo)記一些任務(wù)。” 但是又會(huì)想,“如果他們出錯(cuò)怎么辦?我們?cè)诤芏嗍虑樯隙紵o(wú)法達(dá)成一致,這似乎很困難。” 而且,這樣的專(zhuān)家也不多,他們的時(shí)間非常寶貴,所以這將會(huì)是非常昂貴的數(shù)據(jù)。
總而言之,我希望有一種不依賴(lài)于真實(shí)數(shù)據(jù)的評(píng)估方法。這就是為什么我對(duì)隨機(jī)對(duì)照試驗(yàn)和有針對(duì)性的擾動(dòng)或判別器-評(píng)價(jià)器鴻溝的前景感到興奮。因?yàn)榧词箾](méi)有任何真實(shí)數(shù)據(jù),也可以做到這一點(diǎn),而且可以選擇任意難度的任務(wù)。
4
尋找模型的不良行為和內(nèi)部機(jī)制
Daniel Filan:那篇超級(jí)對(duì)齊的文章中稱(chēng)要尋找不良行為和不良內(nèi)部機(jī)制,這方面有哪些超級(jí)對(duì)齊團(tuán)隊(duì)能夠解決的問(wèn)題?
Jan Leike:首先是可解釋性問(wèn)題。在某種意義上,可解釋性難以實(shí)現(xiàn)。而且我認(rèn)為,目前在語(yǔ)言模型上并沒(méi)有真正能證明可解釋性帶來(lái)了很多洞察或增添了很多價(jià)值,對(duì)這些模型以及內(nèi)部機(jī)制的理解還相當(dāng)初級(jí)。
Daniel Filan:但人們確實(shí)對(duì)語(yǔ)言模型進(jìn)行了一些可解釋性研究,比如歸納頭(induction heads)等等。
Jan Leike:抱歉,我并不是要貶低現(xiàn)有的研究成果……已經(jīng)有產(chǎn)生了許多令人興奮的成果,但最令人振奮的是,使用可解釋性技術(shù)分析像GPT-4這樣規(guī)模的語(yǔ)言模型的獎(jiǎng)勵(lì)模型,得出一些我們之前不知道的關(guān)于獎(jiǎng)勵(lì)模型的信息。獎(jiǎng)勵(lì)模型為許多RLHF訓(xùn)練過(guò)程提供了訓(xùn)練信號(hào),因此更好地理解它具有極高的價(jià)值。如果你能夠標(biāo)記或找出它激勵(lì)產(chǎn)生的行為問(wèn)題,而這些行為是你不希望出現(xiàn)的,那將非常棒。
我認(rèn)為這是可行的,而且重要的是,可解釋性既非必要也非充分條件。我們有很大的機(jī)會(huì)通過(guò)行為來(lái)解決對(duì)齊問(wèn)題,無(wú)需真正理解模型的內(nèi)部運(yùn)作。同時(shí),即使解決了可解釋性問(wèn)題,但并沒(méi)有一個(gè)確切的策略來(lái)解決超級(jí)智能的對(duì)齊問(wèn)題,但從可解釋性中獲得的任何見(jiàn)解都將具有巨大的潛在價(jià)值,它將為我們提供一種突破口。
同時(shí),這也是可解釋性如此難以實(shí)現(xiàn)的原因。因?yàn)槟P驼趯W(xué)習(xí)如何進(jìn)行高效計(jì)算,它并沒(méi)有被正則化為人類(lèi)可理解的形式,也沒(méi)有理由相信每個(gè)神經(jīng)元應(yīng)該對(duì)應(yīng)于任何與人類(lèi)思維相關(guān)或熟悉的東西。實(shí)際上,根據(jù)實(shí)證數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)使用單個(gè)神經(jīng)元來(lái)表示許多不同的概念,并且每個(gè)概念分布在不同的神經(jīng)元之間。因此,在這種情況下,神經(jīng)元并不是真正重要的因素。
對(duì)于可解釋性,我有兩個(gè)感興趣的方面。一是因果關(guān)系。你不僅希望在數(shù)據(jù)通過(guò)模型時(shí)查看一個(gè)神經(jīng)元并說(shuō),“當(dāng)我們有關(guān)于加拿大的故事時(shí),這個(gè)神經(jīng)元會(huì)被激活”,或者其他類(lèi)似的情況。這是我們?cè)诳山忉屝哉撐闹械陌l(fā)現(xiàn)之一。我們發(fā)現(xiàn)一個(gè)‘加拿大’神經(jīng)元,它會(huì)在出現(xiàn)與加拿大相關(guān)的概念時(shí)被激活。但這僅僅是相關(guān)性,而非因果性。
為了驗(yàn)證是否存在因果關(guān)系,你需要有意地編寫(xiě)一些包含加拿大相關(guān)概念的文本,觀察它們是否都會(huì)激活該神經(jīng)元。同時(shí),你還需要添加其他相關(guān)概念,這些概念可能聽(tīng)起來(lái)與加拿大有關(guān)聯(lián),或者與加拿大無(wú)關(guān)但相似。然后,觀察該神經(jīng)元是否不會(huì)被激活。或者你可以拿一段文本,對(duì)其進(jìn)行編輯,然后觀察神經(jīng)元是否關(guān)閉。
Daniel Filan:這讓我想起一篇論文,我記得它被稱(chēng)為“可解釋性幻覺(jué)”,文中提到,可能有一些神經(jīng)元對(duì)某一特定事物進(jìn)行激活,但是在其他數(shù)據(jù)集上,那只是一種幻覺(jué),神經(jīng)元會(huì)因?yàn)樵S多其他事物被激活。
Jan Leike:另一件非常興奮的事是,今年早些時(shí)候發(fā)表的一篇關(guān)于自動(dòng)化解釋性的論文,基本思路是,有一種技術(shù)既可以在個(gè)別神經(jīng)元的微觀層面上運(yùn)行,確保不會(huì)遺漏任何細(xì)節(jié),同時(shí)又可以在宏觀的整個(gè)模型上運(yùn)行。
歸根結(jié)底,模型中的所有組件之間相互作用、高度相關(guān),所以你需要兼顧兩者。到目前為止,技術(shù)大多局限于其中的一個(gè)方面。之前已經(jīng)有過(guò)自動(dòng)化解釋性的相關(guān)研究,但我認(rèn)為,總體而言,如果你能夠進(jìn)行一些非常注重細(xì)節(jié)的可解釋性工作,采用一種機(jī)械性的可解釋性方法,真正嘗試?yán)斫饽P蛢?nèi)部的個(gè)別電路或計(jì)算單元,那么將這種方法推廣到整個(gè)模型的規(guī)模上,就需要自動(dòng)化的幫助。
這篇論文中進(jìn)行了詳細(xì)解釋?zhuān)瑢?shí)際上是為個(gè)別神經(jīng)元編寫(xiě)自然語(yǔ)言解釋?zhuān)M管這不是完全正確的解釋方式,但提供了一個(gè)簡(jiǎn)單的例子,展示了我們?cè)谶@方面取得的成果。其工作原理是:你只需向GPT-4展示一系列激活模式,然后讓GPT-4給出一個(gè)建議性的解釋。
總的來(lái)說(shuō),這些解釋的質(zhì)量欠佳,因?yàn)樵撊蝿?wù)難度較大,大多數(shù)神經(jīng)元并不會(huì)完成非常明確的、人類(lèi)可理解的任務(wù)。但我們可以對(duì)GPT-2中的每個(gè)神經(jīng)元運(yùn)行這個(gè)過(guò)程,然后將所有解釋都保存下來(lái),嘗試找到有趣的模式。你可以查看擴(kuò)展趨勢(shì)(scaling trend),比如“隨著模型變得更大,自動(dòng)評(píng)分這些解釋的擴(kuò)展性如何?”或者“如果我們?cè)黾佑?jì)算資源,讓進(jìn)行解釋的模型變得更大,解釋質(zhì)量會(huì)如何變化?”
最讓人興奮的是,我們可以再次使用語(yǔ)言模型進(jìn)行自動(dòng)測(cè)量。雖然這不是一個(gè)完美的指標(biāo),而且存在一些問(wèn)題,但它為我們提供了一個(gè)“人類(lèi)是否認(rèn)為這個(gè)解釋很好”的近似值。然后,我們將這個(gè)近似值應(yīng)用到整個(gè)模型上,在大量的神經(jīng)元運(yùn)行。
Daniel Filan:如果考慮必要的可解釋性工作,你認(rèn)為,其中有多少是在尋找更好的基本解釋單元,有多少是在解決擴(kuò)展問(wèn)題等?
Jan Leike:兩者都是必要的,找到基本的解釋單元可能更具挑戰(zhàn)性,但擴(kuò)展部分對(duì)于成功至關(guān)重要。
5
語(yǔ)言大模型是否能理解對(duì)齊
Daniel Filan:我猜測(cè),關(guān)于超級(jí)對(duì)齊,我們沒(méi)有清晰的規(guī)范。如果有規(guī)范,就不會(huì)存在對(duì)齊問(wèn)題,我們只需告訴模型“我寫(xiě)了個(gè)Python偽代碼,把神經(jīng)網(wǎng)絡(luò)做得更大一點(diǎn)”,但因?yàn)闆](méi)有這個(gè)規(guī)范,所以我們無(wú)法對(duì)齊文本,我們只能告訴模型,讓它們友好一些,不要傷害人類(lèi)。有人認(rèn)為,我們能從語(yǔ)言模型內(nèi)部找到答案,你怎么看?
Jan Leike:這種觀點(diǎn)有一定的道理,但實(shí)際上我不確定規(guī)范的重要性。一定程度上,如果我們用自己說(shuō)過(guò)的話(huà)來(lái)預(yù)訓(xùn)練模型,模型也無(wú)法真正了解我們的想法,因?yàn)槲覀冞€有很多沒(méi)有寫(xiě)出來(lái)的想法。但總體而言,模型在實(shí)踐中可以相當(dāng)準(zhǔn)確地預(yù)測(cè)人們?cè)诟鞣N情況、事件或場(chǎng)景中的言論。從這個(gè)意義上說(shuō),對(duì)以后的模型來(lái)說(shuō),了解這個(gè)世界、判斷人們對(duì)自己的態(tài)度不會(huì)是一件難事。
Daniel Filan:也就是說(shuō),如果我是超級(jí)智能,即使我頭腦中并沒(méi)有確定的規(guī)則,我也知道自己應(yīng)該做什么。
Jan Leike:我的意思是,模型會(huì)發(fā)展得足夠智能,它將能夠猜測(cè)人們對(duì)事件的看法。我認(rèn)為,我們所面臨的阻礙并不是AI系統(tǒng)不理解人類(lèi)真正關(guān)心的內(nèi)容,并且,模型在這方面不太可能出錯(cuò),因?yàn)槟P褪种悄芮覐?qiáng)大,幾乎了解世界上所有的事。真正的挑戰(zhàn)不是教會(huì)語(yǔ)言模型做事,而是真正讓語(yǔ)言模型去做事。
Daniel Filan:是的。模型知道我們的某個(gè)目標(biāo),而我們要做的是讓模型付出實(shí)際行動(dòng),以實(shí)現(xiàn)這個(gè)目標(biāo)。
Jan Leike:可以把模型類(lèi)比為具有反社會(huì)人格的人,他們具有很強(qiáng)的能力,且知道該做什么,不該做什么,但這些人就是會(huì)反著來(lái),這是非常可怕的。
6
超級(jí)對(duì)齊團(tuán)隊(duì)的四年之期
Daniel Filan:在超級(jí)對(duì)齊的那篇博文中提道,你們的目標(biāo)是在接下來(lái)的四年內(nèi)解決超級(jí)智能對(duì)齊的核心技術(shù)挑戰(zhàn)。這里的核心技術(shù)挑戰(zhàn)是什么?
Jan Leike:這涉及到一般的技術(shù)手段,即如何將超級(jí)智能與一組人類(lèi)價(jià)值觀對(duì)齊。我們?cè)O(shè)想的超級(jí)智能是一個(gè)遠(yuǎn)遠(yuǎn)優(yōu)于人類(lèi)智能的系統(tǒng),它能夠以更快的速度執(zhí)行任務(wù),可以進(jìn)行大量并行計(jì)算,并且與自身的多個(gè)復(fù)制體通力合作,是一個(gè)真正強(qiáng)大的系統(tǒng)。
之所以以四年為期,是因?yàn)槲覀兿MO(shè)定一個(gè)雄心勃勃的目標(biāo),同時(shí)又是一個(gè)在現(xiàn)實(shí)中可行的時(shí)間范圍,即便AI的進(jìn)展非常迅速,技術(shù)在未來(lái)幾年內(nèi)得到顯著提升,那時(shí)我們?nèi)匀豢梢越桓兑恍?shí)際成果。
Daniel Filan:明白。這不僅是在構(gòu)建人類(lèi)水平的AI自動(dòng)對(duì)齊研究員,并且還試圖利用這一方法來(lái)對(duì)齊比人類(lèi)智能得多的系統(tǒng)。
Jan Leike:沒(méi)錯(cuò)。實(shí)際上,我們構(gòu)建人類(lèi)水平自動(dòng)對(duì)齊研究員不僅僅是為了構(gòu)建一個(gè)能夠與人類(lèi)水平對(duì)齊的AI,更重要的是,通過(guò)這一步驟來(lái)解決如何對(duì)齊比人類(lèi)更聰明的超級(jí)智能的技術(shù)問(wèn)題。我們目前還不知道如何實(shí)現(xiàn)超級(jí)智能的對(duì)齊,因此,正在構(gòu)建一個(gè)可以幫助我們研究和解決這個(gè)問(wèn)題的自動(dòng)對(duì)齊研究員。
Daniel Filan:從現(xiàn)在算起,你們想在四年內(nèi)解決這些核心技術(shù)挑戰(zhàn),那么與此目標(biāo)相匹配,你們預(yù)計(jì)兩年后將達(dá)到何種程度?
Jan Leike:我認(rèn)為,在三年后我們應(yīng)該具備了相關(guān)技術(shù)能力,完成了大部分自動(dòng)對(duì)齊研究。如果在那時(shí)還不具備相關(guān)能力,則可能需要延長(zhǎng)項(xiàng)目時(shí)間,四年是最理想的狀態(tài)。
希望兩年后,我們能夠?qū)?shí)際用于對(duì)齊自動(dòng)對(duì)齊研究員的技術(shù)有清晰了解,比如是否掌握了一系列技術(shù)手段?如果應(yīng)用這些技術(shù),我們能否擁有一個(gè)可信賴(lài)且可大量使用的系統(tǒng)并大量分配工作?希望在那時(shí)我們已經(jīng)將問(wèn)題分解得足夠明確,目前大部分工作都僅限于工程層面,這意味著,我們還有大約兩年時(shí)間來(lái)解決與其相關(guān)的研究問(wèn)題。
這是我們?cè)O(shè)定的四年目標(biāo)時(shí)間線(xiàn),顯然,這與AI能力的進(jìn)展之間存在著非常重要的關(guān)聯(lián)。如果AI進(jìn)展放緩,我們可能就難以擁有真正擅長(zhǎng)有用的對(duì)齊研究任務(wù)的模型了。我們嘗試過(guò)用GPT-4來(lái)做對(duì)齊任務(wù),但效果并不理想,GPT-4還不夠智能。如果四年后還沒(méi)有出現(xiàn)足夠智能的模型,那么我們將花更多時(shí)間來(lái)解決這些問(wèn)題。
另一方面,如果AI發(fā)展速度加快,那么留給我們解決問(wèn)題的時(shí)間可能不足四年,超級(jí)智能也許會(huì)快速出現(xiàn),我們必須相應(yīng)地調(diào)整計(jì)劃。因此,四年既可以確保計(jì)劃的可行性,還可以保證問(wèn)題解決的時(shí)效性。
Daniel Filan:假設(shè)在AI能力研究方面的情況如預(yù)期發(fā)展。四年后,你們具備了構(gòu)建良好的自動(dòng)對(duì)齊研究員所需的能力,但結(jié)果證明可解釋性或者可擴(kuò)展監(jiān)督機(jī)制比我們想象的更加困難,那時(shí)該怎么辦?
Jan Leike:如果無(wú)法實(shí)現(xiàn)目標(biāo),我們必須向公眾坦白。但我們能否達(dá)成目標(biāo)很大程度上取決于世界的整體發(fā)展?fàn)顩r,例如能否獲得更多時(shí)間?整體方法是否有誤?是否需要轉(zhuǎn)變方向?在這一過(guò)程中可能發(fā)生很多意外。
Daniel Filan:簡(jiǎn)而言之,如果計(jì)劃有變,你們會(huì)將進(jìn)展向大眾公布并尋求下一個(gè)發(fā)力點(diǎn)。
Jan Leike:對(duì)齊問(wèn)題實(shí)際上具有很強(qiáng)的可操作性。針對(duì)這個(gè)問(wèn)題,我們有很多好的應(yīng)對(duì)方法,只需嚴(yán)格執(zhí)行并測(cè)量結(jié)果,就能真正學(xué)習(xí)并取得進(jìn)展。在過(guò)去的兩年里,我對(duì)這個(gè)問(wèn)題越來(lái)越樂(lè)觀。即使最終證明對(duì)齊確實(shí)比我們想象的更難,我們的研究也仍然價(jià)值非凡,可以獲得更多與對(duì)齊相關(guān)的證據(jù)。現(xiàn)在人們對(duì)對(duì)齊的難度看法各異,在這種情況下,這些證據(jù)顯得更為重要。另外,或許了解和測(cè)量系統(tǒng)在實(shí)踐中的對(duì)齊程度才是更重要的事。
我最擔(dān)心的不是系統(tǒng)的對(duì)齊程度不夠高,而是我們不知道它的對(duì)齊程度有多高。這種情況下,不同的專(zhuān)家可能有不同的意見(jiàn),如果人人都認(rèn)為系統(tǒng)沒(méi)有足夠的對(duì)齊度,它就不會(huì)被部署。
上述問(wèn)題還只是一個(gè)小的方面,更糟糕的是:你已經(jīng)有了一個(gè)強(qiáng)大的系統(tǒng),這個(gè)系統(tǒng)可能還不錯(cuò),并且可能是對(duì)齊的,但你并不確定。這時(shí)有一些專(zhuān)家仍然非常擔(dān)心,在這種情況下,就算能夠馬上部署,我們可能也會(huì)放棄。另外,部署這個(gè)系統(tǒng)還面臨著巨大的商業(yè)壓力,部分人認(rèn)為系統(tǒng)可能是對(duì)齊的,但不夠確定,而同時(shí)又存在強(qiáng)大的商業(yè)利益驅(qū)動(dòng)。面對(duì)這種情況,做出正確的決策就非常困難。
Daniel Filan:系統(tǒng)地部署也存在壓力。
Jan Leike:沒(méi)錯(cuò)。面對(duì)商業(yè)壓力,可能出現(xiàn)這樣的情況:你對(duì)系統(tǒng)是否對(duì)齊有一定的把握,但并非完全確定,然后你可能會(huì)推遲部署,但推遲的時(shí)間越久,商業(yè)壓力就會(huì)越大。因此,我們可以通過(guò)精確測(cè)量系統(tǒng)的對(duì)齊程度來(lái)避免上述問(wèn)題。這正是更廣泛的技術(shù)組合的用武之處。
7
模型的泛化
Daniel Filan:OpenAI在一篇博客文章的腳注中提到:人們迄今為止所做的有利假設(shè)可能會(huì)失效。其中一條假設(shè)認(rèn)為泛化是良性的,那么你們對(duì)泛化問(wèn)題有何不同看法?
Jan Leike:最近我們成立了一個(gè)泛化團(tuán)隊(duì)。目前的問(wèn)題是,我們?cè)撊绾卧谌祟?lèi)評(píng)估和監(jiān)督的基礎(chǔ)上,理解和提升模型能力,讓它從易于監(jiān)督的任務(wù)泛化到難以監(jiān)督的任務(wù)。具體來(lái)說(shuō),泛化與可擴(kuò)展監(jiān)督相輔相成,可擴(kuò)展監(jiān)督是對(duì)人類(lèi)評(píng)估的補(bǔ)充。如果考慮遞歸獎(jiǎng)勵(lì)建模,你會(huì)思考,“我們是否可以用經(jīng)過(guò)遞歸評(píng)價(jià)的AI助手去遞歸評(píng)價(jià)AI所做的每一件事?”這樣能將人類(lèi)真正納入循環(huán)、前沿和中心,以觀察AI系統(tǒng)做所的一切。
當(dāng)然,在實(shí)踐中我們無(wú)法做到觀察AI的一切行為,因?yàn)锳I系統(tǒng)所做的事情太多了,但我們可以以某種小的獨(dú)立概率來(lái)觀察這一切。此外我們還面臨著一個(gè)問(wèn)題:模型可能泛化到未被監(jiān)督的地方。對(duì)于這個(gè)問(wèn)題,我的做法是:確保大部分泛化是獨(dú)立同分布(IID)泛化,即你關(guān)注的任務(wù)與未關(guān)注的任務(wù)遵循相同的分布。
Daniel Filan:你們之前的博文稱(chēng),絕對(duì)不會(huì)依賴(lài)泛化,而是會(huì)繼續(xù)訓(xùn)練模型,保持獨(dú)立同分布。
Jan Leike:是的,這是我最初的想法,我不希望依賴(lài)非獨(dú)立同分布泛化,在神經(jīng)網(wǎng)絡(luò)中,非獨(dú)立同分布泛化的效果并不好,在理解方面有所欠缺。但現(xiàn)在的問(wèn)題是,如果我們真的理解泛化,真的找到了泛化的意義,會(huì)怎么樣呢?這是一個(gè)很有價(jià)值的問(wèn)題,Ilya也多次提到這個(gè)問(wèn)題。
我們想要理解的是,即使在沒(méi)有監(jiān)督的任務(wù)中,即便這些任務(wù)不是獨(dú)立同分布的,我們能否找到模型泛化能力的意義?模型的泛化是否遵從了人們的意愿?模型是否以看起來(lái)對(duì)人們有好處但實(shí)際上沒(méi)有好處的方式進(jìn)行了泛化?對(duì)此,我們可以通過(guò)實(shí)驗(yàn)進(jìn)行實(shí)證研究。
我們一直在嘗試將現(xiàn)有的數(shù)據(jù)集分為簡(jiǎn)單和復(fù)雜兩種,其中簡(jiǎn)單問(wèn)題是小型模型能夠正確解答的問(wèn)題。然后,我們?cè)噲D理解或提高大型模型在整個(gè)數(shù)據(jù)集上的準(zhǔn)確性。這是一個(gè)非常有趣的課題,它為訓(xùn)練和驗(yàn)證技術(shù)提供了全新支柱。假設(shè)能夠非常好地解決這個(gè)問(wèn)題,我們現(xiàn)在可以在一些易于評(píng)估的簡(jiǎn)單任務(wù)上對(duì)獎(jiǎng)勵(lì)模型進(jìn)行監(jiān)督,或者將模型泛化到更復(fù)雜的問(wèn)題上,那么我們就能泛化模型。
然后,我們就有了這個(gè)即使沒(méi)有對(duì)其進(jìn)行監(jiān)督,也能以我們所期望的方式泛化到更難任務(wù)的獎(jiǎng)勵(lì)模型,還可以利用這個(gè)模型進(jìn)行訓(xùn)練。然而,這仍然面臨一個(gè)問(wèn)題,即我們不知道模型是否已經(jīng)對(duì)齊,不過(guò)可以利用可擴(kuò)展監(jiān)督和可解釋性等技術(shù)進(jìn)行驗(yàn)證,或者反過(guò)來(lái),假設(shè)我們通過(guò)可擴(kuò)展監(jiān)督訓(xùn)練了自動(dòng)對(duì)齊研究員,并且使用了泛化來(lái)進(jìn)行驗(yàn)證,即根據(jù)模型的最佳知識(shí)泛化出真實(shí)回答的概率。
然后,我們提出一個(gè)問(wèn)題,比如在這段代碼中是否存在一些小缺陷?是否存在用可擴(kuò)展監(jiān)督方式對(duì)齊的模型編寫(xiě)的木馬?現(xiàn)在,我們可以進(jìn)行高級(jí)交叉驗(yàn)證,訓(xùn)練兩個(gè)不同的模型,一個(gè)模型使用泛化技術(shù)訓(xùn)練,另一個(gè)模型使用可擴(kuò)展監(jiān)督訓(xùn)練。我們可以交叉核對(duì)模型答案,查看它們是否是一樣的模型,或者說(shuō)它們是否有本質(zhì)上的區(qū)別?如果有,有哪些重大差異?
Daniel Filan:最近Scott Aaronson在我們的播客中提到,每當(dāng)他和Ilya Sutskever交談時(shí),Ilya總是問(wèn)他關(guān)于愛(ài)和善的理論定義。你們團(tuán)隊(duì)如何看待這個(gè)問(wèn)題?
Jan Leike:我們可能會(huì)嘗試很多不同的探索性項(xiàng)目。按Ilya的話(huà)來(lái)說(shuō),最終的問(wèn)題是我們?cè)撊绾握賳荆╯ummon)與對(duì)齊相關(guān)的概念?其中一個(gè)我們想要召喚的概念是:模型是否從根本上希望人類(lèi)成功?或者用Ilya的話(huà)來(lái)說(shuō),它是否熱愛(ài)人類(lèi)?
因此,如果模型非常智能,已經(jīng)讀過(guò)所有東西,完全了解了人類(lèi)對(duì)于不道德行為的想法,那么你可以請(qǐng)求GPT-4從不同的哲學(xué)觀點(diǎn)、不同的情景中給出不同的道德案例,在這方面,它通常都做得很不錯(cuò)。所以GPT-4從根本上理解了人們對(duì)于道德的定義以及我們思考的方式。那么如何利用它呢?我認(rèn)為這是問(wèn)題的核心所在。
8
與其他對(duì)齊實(shí)驗(yàn)室的不同
Daniel Filan:OpenAI好像本來(lái)就有一個(gè)對(duì)齊團(tuán)隊(duì),這個(gè)團(tuán)隊(duì)現(xiàn)在還在嗎?你如何看待超級(jí)對(duì)齊團(tuán)隊(duì)與OpenAI的關(guān)系?
Jan Leike:這個(gè)對(duì)齊團(tuán)隊(duì)去年還在,當(dāng)時(shí)團(tuán)隊(duì)由兩部分組成,分別是實(shí)用對(duì)齊(practical alignment)和可擴(kuò)展對(duì)齊(scalable alignment)。實(shí)用對(duì)齊的任務(wù)是對(duì)齊OpenAI能力最強(qiáng)的模型,所以該團(tuán)隊(duì)主要關(guān)注于對(duì)齊GPT-4;可擴(kuò)展對(duì)齊團(tuán)隊(duì)的目標(biāo)是解決我們尚未面臨的對(duì)齊問(wèn)題。隨著ChatGPT的發(fā)布和成功,需要大量工作來(lái)改進(jìn)ChatGPT的RLHF、提高模型質(zhì)量,使其成為真正出色的產(chǎn)品,但對(duì)齊團(tuán)隊(duì)無(wú)法完成這些任務(wù)。
因此,實(shí)用對(duì)齊團(tuán)隊(duì)的工作都移交給了OpenAI的其他團(tuán)隊(duì),并且已經(jīng)發(fā)展為規(guī)模數(shù)百人的大項(xiàng)目。可擴(kuò)展對(duì)齊則演變?yōu)槿缃竦某?jí)對(duì)齊團(tuán)隊(duì)。我們想要強(qiáng)調(diào)目前正在努力對(duì)齊超級(jí)智能,所以選擇了這個(gè)名字。我們正在研究還未遇到的問(wèn)題,進(jìn)行一些前瞻性工作。這并不代表其他工作不重要,只是目前我們主要關(guān)注的是對(duì)齊問(wèn)題。
Daniel Filan:世界上還有其他非常優(yōu)秀的AI研究實(shí)驗(yàn)室,它們也在做超級(jí)智能對(duì)齊的相關(guān)工作。與這些實(shí)驗(yàn)室相比,超級(jí)對(duì)齊團(tuán)隊(duì)有何不同?
Jan Leike:很多實(shí)驗(yàn)室都在進(jìn)行相關(guān)工作,尤其像DeepMind和Anthropic等。在某種程度上,我們都試圖解決同一個(gè)問(wèn)題,所以自然會(huì)做可解釋性和可擴(kuò)展監(jiān)督之類(lèi)的工作。
在一定程度上,我們面臨著做重復(fù)工作的風(fēng)險(xiǎn),為避免這種情況,不同實(shí)驗(yàn)室之間最好相互協(xié)作。另一方面,不同實(shí)驗(yàn)室進(jìn)行類(lèi)似的研究也有好處,可以避免群體思維。如果每個(gè)實(shí)驗(yàn)室都試圖靠自己解決這些問(wèn)題,人們自然會(huì)更懷疑其他實(shí)驗(yàn)室的成果。最后,這種情況可能造成 “非此即彼”現(xiàn)象,也就是說(shuō)除了自己實(shí)驗(yàn)室的成果,人們不愿意使用其他實(shí)驗(yàn)室的技術(shù),因?yàn)槿藗兛傆幸环N先入為主的偏見(jiàn),覺(jué)得其他人的東西不好。
目前,我們還不知道如何平衡上述情況。也許我們應(yīng)該將所有對(duì)齊人員聚集起來(lái),讓他們一起協(xié)同工作。但現(xiàn)實(shí)情況是,各個(gè)尖端AI實(shí)驗(yàn)室受投資驅(qū)動(dòng),紛紛專(zhuān)注于研究對(duì)齊問(wèn)題。RLHF的成功使得模型具有了更高的商業(yè)價(jià)值,導(dǎo)致人們將目光轉(zhuǎn)向了更具商業(yè)價(jià)值的技術(shù),這類(lèi)技術(shù)很快吸引了大量投資。如果AI實(shí)驗(yàn)室是研究的主要資助者,那么實(shí)驗(yàn)室就能擺脫資本的影響,對(duì)齊研究自然就會(huì)在這些地方進(jìn)行。
Daniel Filan:在研究議程等方面, 超級(jí)對(duì)齊團(tuán)隊(duì)有何獨(dú)特之處?
Jan Leike:超級(jí)對(duì)齊團(tuán)隊(duì)專(zhuān)注于對(duì)齊自動(dòng)對(duì)齊研究員,而不是對(duì)齊特定任務(wù)。我們不太擔(dān)心由此產(chǎn)生的成本問(wèn)題。其他實(shí)驗(yàn)室似乎沒(méi)有以這種方式強(qiáng)調(diào)這一目標(biāo)或方向。我們積極嘗試各種可擴(kuò)展的對(duì)齊技術(shù),并尋找方法來(lái)進(jìn)行實(shí)證比較。其他實(shí)驗(yàn)室可能對(duì)特定的可擴(kuò)展監(jiān)督技術(shù)非常樂(lè)觀,并努力促成其實(shí)現(xiàn),我們團(tuán)隊(duì)在可解釋性方面采取自動(dòng)化的方法,其他實(shí)驗(yàn)室可能并沒(méi)有特別強(qiáng)調(diào)這一點(diǎn),我們傾向于在這一領(lǐng)域進(jìn)行大量嘗試。
我們團(tuán)隊(duì)認(rèn)為,可以利用計(jì)算能力來(lái)強(qiáng)化對(duì)齊,這是主要策略之一。特別是在可擴(kuò)展監(jiān)督方面,希望弄清如何提高監(jiān)督信號(hào)的質(zhì)量。我們關(guān)注的是,如何運(yùn)用更多的計(jì)算資源來(lái)強(qiáng)化監(jiān)督信號(hào),對(duì)評(píng)價(jià)模型進(jìn)行計(jì)算上的改進(jìn)可能是一種方法,這樣一來(lái),通過(guò)耗費(fèi)更多的計(jì)算資源,會(huì)得到更好的評(píng)價(jià)。
然而,問(wèn)題的關(guān)鍵是,還有哪些其他方法?如何運(yùn)用更多計(jì)算資源來(lái)強(qiáng)化監(jiān)督信號(hào)的效果?自動(dòng)可解釋性是一種可行的方式,只需投入大量計(jì)算資源就可推進(jìn)可解釋性問(wèn)題的進(jìn)展。目前我們的做法還不完全正確,但總體上,如果能使自動(dòng)可解釋性生效,那將帶來(lái)巨大價(jià)值,這也正是自動(dòng)可解釋性的吸引力所在。
顯然,做自動(dòng)對(duì)齊研究時(shí),我們只需投入更多計(jì)算資源,就能獲得更好的對(duì)齊效果。但我們真正想做的是將算力轉(zhuǎn)化為對(duì)齊效果,于是我們得出了這樣一個(gè)結(jié)論:我們需要大量算力。這也是OpenAI承諾將20%的計(jì)算資源用于自動(dòng)對(duì)齊研究,這可能是迄今為止對(duì)齊領(lǐng)域的最大投資,甚至可能超過(guò)所有其他投資的總和。如果我們將這個(gè)比例設(shè)定得更大,人們就會(huì)懷疑OpenAI是否真能實(shí)現(xiàn)這一目標(biāo)?因?yàn)镺penAI仍然想要開(kāi)發(fā)前沿模型以及預(yù)訓(xùn)練最先進(jìn)的AI系統(tǒng),這將需要大量算力。
如果我們確實(shí)成功研究出自動(dòng)對(duì)齊研究員,并且結(jié)果顯示需要更多算力來(lái)運(yùn)行它。這意味著,通過(guò)將算力轉(zhuǎn)化為對(duì)齊效果的策略也許能夠成功,這一策略也會(huì)得到OpenAI的支持。
Daniel Filan:就團(tuán)隊(duì)人數(shù)而言,你們最多能達(dá)到多少人呢?
Jan Leike:目前團(tuán)隊(duì)大約有20人,年底可能會(huì)增加到30人左右。四年內(nèi),團(tuán)隊(duì)規(guī)模不太可能超過(guò)一百人。然而,團(tuán)隊(duì)規(guī)模的擴(kuò)展并不單純通過(guò)增加實(shí)際人員數(shù)量,還通過(guò)虛線(xiàn)參與人員的方式。因此,團(tuán)隊(duì)規(guī)模會(huì)實(shí)現(xiàn)大規(guī)模擴(kuò)展。
9
為何看好自動(dòng)對(duì)齊研究員
Daniel Filan:有人擔(dān)心對(duì)齊人類(lèi)水平的對(duì)齊研究員會(huì)非常困難,需要進(jìn)行相當(dāng)復(fù)雜的思考。為什么你對(duì)此如此樂(lè)觀?
Jan Leike:這是個(gè)很好的問(wèn)題。相比“計(jì)劃能否成功”,“計(jì)劃能否在四年內(nèi)成功”是一個(gè)更為復(fù)雜的問(wèn)題。如果你問(wèn)我,我們當(dāng)前的計(jì)劃是否能成功對(duì)齊超級(jí)智能,我會(huì)說(shuō),有85%的可能,而在去年計(jì)劃的可能性大約為60%。我對(duì)此持樂(lè)觀態(tài)度的理由有很多,即使對(duì)齊并不容易,這些理由也依然成立。
那么我為何如此樂(lè)觀呢?理由如下:從過(guò)去幾年來(lái)看,對(duì)齊研究員的發(fā)展情況相當(dāng)喜人,至少對(duì)我來(lái)說(shuō),AI領(lǐng)域出現(xiàn)了一些符合預(yù)期的更新。首先是語(yǔ)言模型的成功,如果我們預(yù)先為模型裝載人類(lèi)關(guān)心的事物,比如我們的道德選擇、認(rèn)知偏好等,并且模型能夠理解自然語(yǔ)言,我們就可以直接與模型交流。
從某種程度上說(shuō),與在游戲或虛擬環(huán)境中訓(xùn)練的深度強(qiáng)化學(xué)習(xí)智能體相比,與語(yǔ)言模型溝通,表達(dá)我們希望語(yǔ)言模型對(duì)齊的內(nèi)容要容易得多,相比語(yǔ)言模型,深度強(qiáng)化學(xué)習(xí)智能體涉及的語(yǔ)言可能不足,而語(yǔ)言與很多重要的技能相關(guān)。
另一個(gè)重要的更新是RLHF的良好運(yùn)行。最初研究RLHF時(shí),我認(rèn)為,可能難以在合理時(shí)間內(nèi)使其發(fā)揮作用,因?yàn)楫?dāng)時(shí)GAN(生成對(duì)抗網(wǎng)絡(luò))很難訓(xùn)練,而我們?cè)谀撤N程度上正在做一些非常類(lèi)似的事情,我們訓(xùn)練了這個(gè)獎(jiǎng)勵(lì)模型,然后用它來(lái)訓(xùn)練另一個(gè)網(wǎng)絡(luò),但訓(xùn)練可能因各種原因失敗。
現(xiàn)在,我們?cè)谶@個(gè)過(guò)程中加入了當(dāng)時(shí)覺(jué)得很棘手的深度強(qiáng)化學(xué)習(xí)。那時(shí),我認(rèn)為RLHF可能會(huì)失敗,但實(shí)際上它運(yùn)行得非常好,在許多游戲中,甚至在大部分Atari游戲中,RLHF幾乎能與在評(píng)分函數(shù)(score function)上訓(xùn)練的模型相媲美。
更重要的是,RLHF在語(yǔ)言模型上的表現(xiàn)非常有趣,尤其是考慮到InstructGPT和從中進(jìn)行微調(diào)的基礎(chǔ)模型之間的區(qū)別相當(dāng)明顯,微調(diào)后的版本在API任務(wù)上的表現(xiàn)超過(guò)基礎(chǔ)模型100倍,而這些才是人們?cè)敢鉃橹顿M(fèi)的任務(wù)。這是一個(gè)非常大的差異,這表明,RLHF的微調(diào)極大地提升了模型處理人們需求的效率。
同時(shí),我們?cè)赗LHF方面投入的算力非常少,我沒(méi)有收集到足夠多的數(shù)據(jù)。可以說(shuō),這是我們首次嘗試使用RLHF來(lái)對(duì)齊真正的系統(tǒng),它能如此良好地運(yùn)行確實(shí)很讓人驚訝。InstructGPT的效率非常高。
雖然我不認(rèn)為RLHF是對(duì)齊的解決方案,尤其是對(duì)于超級(jí)智能來(lái)說(shuō),但這是第一個(gè)我們真正認(rèn)真嘗試的對(duì)齊方法,它運(yùn)行得如此出色。這至少意味著,對(duì)齊比我們想象的容易。
我對(duì)自動(dòng)對(duì)齊研究員持樂(lè)觀態(tài)度的第二個(gè)原因是:現(xiàn)階段我們已經(jīng)可以衡量對(duì)齊研究的進(jìn)展。尤其對(duì)于RLHF,我們有各種干預(yù)手段,可以進(jìn)行人類(lèi)評(píng)估,查看系統(tǒng)改進(jìn)情況。在許多其他方面比如可擴(kuò)展監(jiān)督也是如此,我們可以進(jìn)行有針對(duì)性干擾的隨機(jī)對(duì)照試驗(yàn),另外,我們還可以改變一些條件,利用自動(dòng)評(píng)分函數(shù),查看這些改變所帶來(lái)的提升。這個(gè)評(píng)分函數(shù)并不完美,它只是一個(gè)能夠給出局部提升坡度的局部指標(biāo),但對(duì)研究進(jìn)展的衡量非常重要,它可以幫助我們?cè)O(shè)定迭代目標(biāo),提供改進(jìn)方向。
到目前為止,我不認(rèn)為我們能夠?qū)崿F(xiàn)對(duì)齊超級(jí)智能的目標(biāo),但我們有很大可能構(gòu)建出人類(lèi)水平的自動(dòng)對(duì)齊研究員。相比對(duì)齊超級(jí)智能,構(gòu)建人類(lèi)水平的自動(dòng)對(duì)齊研究員是一個(gè)相對(duì)溫和可行的目標(biāo),這也是我對(duì)此持樂(lè)觀態(tài)度的第三個(gè)原因。
多年前,剛開(kāi)始從事對(duì)齊研究工作時(shí),我就知道對(duì)齊超級(jí)智能非常難。相比而言,自動(dòng)對(duì)齊研究員的可行性非常高。面對(duì)一個(gè)非常難的目標(biāo),我們可以轉(zhuǎn)換思路,與其死磕整體目標(biāo),不如將目標(biāo)分解為更為具體可行的小目標(biāo)。
第四個(gè)原因是,評(píng)估任務(wù)比生成任務(wù)更容易。這適用于很多情況,就拿手機(jī)來(lái)說(shuō),評(píng)估一部手機(jī)的好壞比生產(chǎn)手機(jī)要容易得多。計(jì)算機(jī)科學(xué)中有很多NP問(wèn)題(Non-deterministic Polynomial),比如SAT求解或不同版本的約束滿(mǎn)足問(wèn)題,對(duì)于這些問(wèn)題我們不確定能否在多項(xiàng)式時(shí)間內(nèi)找到答案,但可以在多項(xiàng)式時(shí)間內(nèi)驗(yàn)證答案是否正確。我認(rèn)為,NP問(wèn)題也適用于很多商業(yè)活動(dòng),比如雇傭某個(gè)人來(lái)解決某個(gè)問(wèn)題,我們需要對(duì)這個(gè)人的工作能力進(jìn)行評(píng)估,而后者的工作量要遠(yuǎn)低于前者;這種情況同樣也適用于學(xué)術(shù)研究領(lǐng)域,在學(xué)術(shù)研究領(lǐng)域同行評(píng)審所需的工作量要比進(jìn)行研究的工作量要小得多。在我看來(lái),對(duì)齊研究也是如此。
最后一個(gè)原因是,我對(duì)語(yǔ)言模型的發(fā)展信心十足。語(yǔ)言模型有很大的發(fā)展?jié)摿Γ鼈儠?huì)變得極為出色,它們非常適用于多數(shù)與對(duì)齊研究相關(guān)的任務(wù),我們可以將這些任務(wù)形式化為文本輸入和輸出。無(wú)論是機(jī)器學(xué)習(xí)類(lèi)任務(wù)(比如運(yùn)行實(shí)驗(yàn)并理解結(jié)果),還是更具概念性或研究?jī)r(jià)值的任務(wù),如果我們?cè)谔幚磉@些任務(wù)時(shí)遇到困難,比如不知道下一步該做什么,或者不知道該如何理解某個(gè)問(wèn)題時(shí),模型會(huì)嘗試幫助我們解決該問(wèn)題。基本所有這些任務(wù)都是文本輸入和輸出類(lèi)任務(wù),其中最復(fù)雜的任務(wù)可能就是查看圖表等內(nèi)容,但這些任務(wù)GPT-4就能解決。因此,當(dāng)前的語(yǔ)言模型預(yù)訓(xùn)練范式非常適合進(jìn)行對(duì)齊計(jì)劃以及超級(jí)對(duì)齊研究工作。
Daniel Filan:我對(duì)語(yǔ)言模型的實(shí)用性有點(diǎn)懷疑,語(yǔ)言模型確實(shí)很擅長(zhǎng)建模文本,并基于文本生成評(píng)分很高的答案。但就語(yǔ)言模型對(duì)于對(duì)齊的作用而言,它并不是以目標(biāo)為導(dǎo)向的,你怎么看?
Jan Leike:是的,至少初步看來(lái),模型預(yù)訓(xùn)練更像是在互聯(lián)網(wǎng)隨機(jī)文本上,按照“預(yù)測(cè)下一個(gè)詞元”這一狹隘目標(biāo)所進(jìn)行的訓(xùn)練,這一目標(biāo)無(wú)法發(fā)展為長(zhǎng)期目標(biāo),雖然長(zhǎng)期目標(biāo)可能會(huì)以某種方式出現(xiàn),但先驗(yàn)上看,“預(yù)測(cè)下一個(gè)詞元”只能是短期目標(biāo)。
Daniel Filan:人們生成文本時(shí)需要有長(zhǎng)期目標(biāo)。那么如果用一些論文對(duì)模型進(jìn)行訓(xùn)練,通常人們寫(xiě)論文是為了推進(jìn)研究項(xiàng)目,或促進(jìn)自己的職業(yè)發(fā)展。如果我們用這些具有長(zhǎng)期目標(biāo)的內(nèi)容建模,也許就能得到長(zhǎng)期目標(biāo)。
Jan Leike:這可以解釋為什么“預(yù)測(cè)下一個(gè)詞元”有時(shí)會(huì)出現(xiàn)長(zhǎng)期目標(biāo)。我認(rèn)為,主要問(wèn)題是構(gòu)建追求長(zhǎng)期目標(biāo)的智能體,構(gòu)建實(shí)現(xiàn)這些目標(biāo)的方式,公眾對(duì)此的反應(yīng),以及可能生成的結(jié)果等種種因素共同讓預(yù)測(cè)下一次詞元成為了一個(gè)非常難的函數(shù)。而預(yù)訓(xùn)練通過(guò)激勵(lì)措施先找到最簡(jiǎn)單的函數(shù),歸納頭表示法就是一個(gè)很好的例子,它是一個(gè)簡(jiǎn)單的誘導(dǎo)機(jī)制,在訓(xùn)練較小的模型時(shí)被發(fā)現(xiàn)。
Daniel Filan:我認(rèn)為,語(yǔ)言模型的預(yù)測(cè)機(jī)制就是在預(yù)測(cè)下一個(gè)詞時(shí)查看上一個(gè)詞是否在上文出現(xiàn)過(guò),如果是,就查看它的下一個(gè)詞是什么。這種機(jī)制非常簡(jiǎn)單。
Jan Leike:沒(méi)錯(cuò)。我們會(huì)在這個(gè)簡(jiǎn)單機(jī)制的基礎(chǔ)上構(gòu)建更復(fù)雜的機(jī)制。因?yàn)槲覀円倪M(jìn)預(yù)訓(xùn)練損失,所以會(huì)預(yù)先學(xué)習(xí)能帶給我們最大幫助的最簡(jiǎn)單函數(shù)。因此,在學(xué)習(xí)建模具有長(zhǎng)期目標(biāo)的智能體這種非常復(fù)雜的函數(shù)之前,我們會(huì)學(xué)習(xí)許多其他函數(shù)。
我預(yù)計(jì),“預(yù)測(cè)下一個(gè)單詞”函數(shù)可能會(huì)是我們學(xué)習(xí)的最后幾個(gè)函數(shù)之一,它非常復(fù)雜,而模型的層是有限的,所以單次前向傳遞過(guò)程中能做的事情是有限的。
