在线观看自拍视频,中文字幕日屄,永久久久久,日本A A片,久久久久无码国产精品一区,欧美亚洲日韩国产高清,翔田千里一区二区三,麻豆传媒映画在线体育老师家访

讓大小模型相互博弈，就能實(shí)現(xiàn)生成內(nèi)容可讀性的提升！

這是來自O(shè)penAI的正經(jīng)研究，目標(biāo)就是在保證準(zhǔn)確率的同時(shí)，讓模型輸出更容易被人理解。

用這種方法訓(xùn)練之后，人類對模型輸出的判斷準(zhǔn)確率明顯增長，速度也變得更快了。

這項(xiàng)研究出自O(shè)penAI已解散的“超級對齊”團(tuán)隊(duì)，模仿了多倫多大學(xué)學(xué)者與2021年提出的“證明者-驗(yàn)證者”（Prover-Verifier）博弈。

在訓(xùn)練過程中，OpenAI讓大模型擔(dān)任“證明者”，小模型作為“驗(yàn)證者”，讓這兩種身份展開一場相互較量。

最終，大模型輸出的結(jié)果不僅更易理解，自身的準(zhǔn)確率也沒有明顯損失，小模型的判斷水平也提高了。

甚至論文作者之一、OpenAI研究員Yining Chen表示，這種方法“有可能使未來的模型比人類更聰明”。

值得一提的是，超級對齊團(tuán)隊(duì)原負(fù)責(zé)人、RLHF作者Jan Leike也參與了這項(xiàng)研究，他離職時(shí)曾炮轟OpenAI不重視安全。

不過，Jan Leike介紹這篇論文的推文最后，是給現(xiàn)在所在的Anthropic（Claude廠家）打廣告招兵買馬。

論文的另一名作者、OpenAI研究人員Nat McAleese在推文中透露，這將是OpenAI的最后一篇（Final）超級對齊論文。

這一消息讓一部分網(wǎng)友十分激動(dòng)，表示這一定不是最后一篇，Nat你還會(huì)繼續(xù)做超級對齊的對吧？

讓模型相互博弈

OpenAI研究發(fā)現(xiàn)，大模型生成的內(nèi)容，在準(zhǔn)確性和易讀性兩個(gè)維度上存在一些制衡——

如果以自身準(zhǔn)確率為目標(biāo)進(jìn)行優(yōu)化，會(huì)導(dǎo)致易讀性下降；如果以易讀性作為目標(biāo)，自身的準(zhǔn)確率又會(huì)有所損失。

即使在簡單的小學(xué)數(shù)學(xué)級別的任務(wù)上，也很容易看出其中的差距，OpenAI將其稱為“可理解性稅”。

但是，人類能否理解模型生成的內(nèi)容是做出準(zhǔn)確判斷的重要前提，因而對安全性也有重要影響。

即使拋開這點(diǎn)不談，內(nèi)容的可理解性也直接決定了模型能否給人類帶來有用的幫助。

這項(xiàng)研究受到多倫多大學(xué)學(xué)者與2021年提出的“證明者-驗(yàn)證者”博弈的啟發(fā)，通過博弈的方式訓(xùn)練模型。

證明者擁有強(qiáng)大的計(jì)算能力，能夠執(zhí)行復(fù)雜的計(jì)算和生成證明，任務(wù)是試圖說服驗(yàn)證者某個(gè)陳述是正確的。

驗(yàn)證者則只能執(zhí)行相對簡單的計(jì)算，需要通過交互過程來確定證明者提供的證明是否可信。

舉個(gè)例子，有一道數(shù)學(xué)題需要求解一個(gè)函數(shù)的表達(dá)式，證明者知道這個(gè)表達(dá)式（但不一定對），并希望驗(yàn)證者相信他的答案是對的。

而驗(yàn)證者知道一些自變量對應(yīng)的函數(shù)值，便可以用這些信息測試證明者，通過其回答準(zhǔn)確與否判斷其知不知道正確的函數(shù)。

通過這樣的方式，OpenAI力圖實(shí)現(xiàn)準(zhǔn)確性和易讀性的平衡，用相對較少的準(zhǔn)確率損失換取更高的易讀性。

在本項(xiàng)目中，OpenAI團(tuán)隊(duì)使用一個(gè)了包含小學(xué)數(shù)學(xué)問題、解決方案和正確答案的數(shù)據(jù)集。

模型則選擇了不同規(guī)模的GPT-4系列模型，規(guī)模大的作為證明器，小的則用來充當(dāng)驗(yàn)證器。

該數(shù)據(jù)集被隨機(jī)劃分為兩個(gè)大小相等的子集，分別用于證明器和驗(yàn)證器的訓(xùn)練。

其中證明器又被分別賦予了有幫助（helpful）和奸詐（sneaky）兩種角色，分別生成正確和錯(cuò)誤的解法。

但二者的共同點(diǎn)是，都需要讓自己的解法能夠被驗(yàn)證器賦予高分。

△狡詐證明器在多輪訓(xùn)練中的進(jìn)化

這兩種角色不是固定不變，證明器需要輪流扮演，當(dāng)行為與扮演角色一致時(shí)會(huì)獲得獎(jiǎng)勵(lì)。

訓(xùn)練分為多輪進(jìn)行，每輪當(dāng)中團(tuán)隊(duì)會(huì)從上一輪兩張證明器生成的解決方案中，抽取一批正確和錯(cuò)誤的樣本。

這些樣本會(huì)作為當(dāng)前輪的驗(yàn)證器訓(xùn)練數(shù)據(jù)，通過監(jiān)督學(xué)習(xí)訓(xùn)練驗(yàn)證器，提高其判斷的正確性，讓驗(yàn)證器對正確解決方案的評分高于錯(cuò)誤解決方案。

在這樣的過程中，狡詐證明器不斷督促著驗(yàn)證器提高其判斷準(zhǔn)確率，驗(yàn)證器也讓證明器生成的內(nèi)容更符合打分偏好，兩者之間通過相互博弈實(shí)現(xiàn)了共同進(jìn)步。

而獲得高評分的一個(gè)重要前提，就是生成的內(nèi)容能夠被驗(yàn)證器理解，這樣一來，只要在驗(yàn)證器中引入人類偏好，就能增強(qiáng)模型輸出內(nèi)容的可解釋性。

準(zhǔn)確率與可讀性的平衡

最終，這樣的博弈式訓(xùn)練方法在高準(zhǔn)確率和高可理解性之間取得了較好的平衡。

傳統(tǒng)的訓(xùn)練方式只關(guān)注模型自身準(zhǔn)確率，結(jié)果隨著訓(xùn)練過程的進(jìn)行，答案的準(zhǔn)確率是提高了，但人類做出的判斷卻越來越不準(zhǔn)確了，而且速度也變得更慢。

由于OpenAI團(tuán)隊(duì)將人類偏好引入了驗(yàn)證器，因此驗(yàn)證器的判斷準(zhǔn)確率在一定程度上是與人類相關(guān)的。

最終結(jié)果也證實(shí)，用這種博弈的方式訓(xùn)練出的模型（證明器），在自身準(zhǔn)確率未顯著損失的情況下，讓人類對其做出的判斷隨著訓(xùn)練輪數(shù)的增加更快更準(zhǔn)。

對比baseline方法后不難發(fā)現(xiàn)，5輪之后人類判斷準(zhǔn)確率超過了82%，但baseline在訓(xùn)練7千步之后只有不到75%；

時(shí)間上，baseline的人類判斷用時(shí)接近27秒，新方法則僅略高于26秒。

另外對于驗(yàn)證器而言，隨著訓(xùn)練不斷進(jìn)行，其魯棒性也逐漸增強(qiáng)，能夠更準(zhǔn)確地識(shí)別出錯(cuò)誤答案。

除了對這種游戲式訓(xùn)練方法的效果評估，OpenAI團(tuán)隊(duì)在研究過程中還有一些其他發(fā)現(xiàn)：

驗(yàn)證器規(guī)模的影響：太小會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定，太大又會(huì)導(dǎo)致難以在多輪訓(xùn)練中提高魯棒性，證明器的千分之一到百分之一效果最佳。
惡意解法中的錯(cuò)誤隨著訓(xùn)練變得越來越細(xì)微和局部化，說明驗(yàn)證器推動(dòng)了奸詐證明器生成更加接近真實(shí)解法的對抗樣本。
隨著訓(xùn)練輪數(shù)增加，人類評估者在奸詐證明器上的準(zhǔn)確率有所下降。

One More Thing

由于做出這項(xiàng)研究的超級對齊團(tuán)隊(duì)已經(jīng)解散，負(fù)責(zé)的又是安全問題，所以O(shè)penAI的安全策略再次受到了廣泛關(guān)注。

關(guān)于這個(gè)問題，OpenAI CTO Mira Murati于這個(gè)月初在約翰森霍普金斯大學(xué)接受了一場專訪。

其間Mira表示，OpenAI并沒有像超級對齊團(tuán)隊(duì)前負(fù)責(zé)人Jan Leike控訴的那樣“把產(chǎn)品（優(yōu)先級）置于安全之前”。

同時(shí)她還說，雖然超級對齊團(tuán)隊(duì)已經(jīng)解散，但超級對齊實(shí)際上只是OpenAI多個(gè)安全團(tuán)隊(duì)之中的一個(gè)，公司里依然有很多人都在從事安全工作。

參考鏈接：
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542

— 完 —

版權(quán)聲明：本號內(nèi)容部分來自互聯(lián)網(wǎng)，轉(zhuǎn)載請注明原文鏈接和作者，如有侵權(quán)或出處有誤請和我們聯(lián)系。

Openai新研究，大小模型博弈，得到更好的內(nèi)容可讀性

讓模型相互博弈

△狡詐證明器在多輪訓(xùn)練中的進(jìn)化

準(zhǔn)確率與可讀性的平衡

One More Thing

Openai新研究，大小模型博弈，得到更好的內(nèi)容可讀性