<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Nature最新封面:AI訓(xùn)練AI?也許越來(lái)越笨

          共 4694字,需瀏覽 10分鐘

           ·

          2024-07-25 12:35

          大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條
          撰文:馬雪薇
          編審:佩奇

          當(dāng)前,在愈發(fā)火熱的大模型行業(yè),Scaling Law 被證明依然奏效。

          問(wèn)題是,一旦由人類生成的高質(zhì)量數(shù)據(jù)(如書(shū)籍、文章、照片、視頻等)用盡,大模型訓(xùn)練又該如何進(jìn)行?


          目前,一個(gè)被寄予厚望的方法是“用大模型自己生成的數(shù)據(jù)來(lái)訓(xùn)練自己”。事實(shí)上,如果后代模型的訓(xùn)練數(shù)據(jù)也從網(wǎng)絡(luò)中獲取,就會(huì)不可避免地使用前代模型生成的數(shù)據(jù)。

          然而,來(lái)自牛津大學(xué)和劍橋大學(xué)的研究團(tuán)隊(duì)及其合作者,卻給這一設(shè)想“潑了一盆冷水”。

          他們給出了這樣一個(gè)結(jié)論:模型在訓(xùn)練中使用自身生成的內(nèi)容,會(huì)出現(xiàn)不可逆轉(zhuǎn)的缺陷,逐漸忘記真實(shí)數(shù)據(jù)分布,從而導(dǎo)致模型性能下降。

          即“模型崩潰”(Model Collapse)。

          相關(guān)研究論文以“AI models collapse when trained on recursively generated data”為題,已發(fā)表在權(quán)威科學(xué)期刊 Nature 上。


          但他們也表示,用一個(gè)舊模型生成的數(shù)據(jù)去訓(xùn)練一個(gè)新模型,并非不可行,但必須對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的過(guò)濾。

          在一篇同期發(fā)表的新聞與觀點(diǎn)文章中,來(lái)自杜克大學(xué)的 Emily Wenger 認(rèn)為,“論文作者沒(méi)有考慮模型在由其他模型生成的數(shù)據(jù)上訓(xùn)練時(shí)會(huì)發(fā)生什么,他們專注于模型在自身輸出上訓(xùn)練的結(jié)果。一個(gè)模型在訓(xùn)練其他模型的輸出時(shí)是否會(huì)崩潰還有待觀察。因此,下一個(gè)挑戰(zhàn)將是要搞清楚模型崩潰發(fā)生的機(jī)制。”

          么是模型崩潰?


          本質(zhì)上,當(dāng)大模型生成的數(shù)據(jù)最終污染了后續(xù)模型的訓(xùn)練集時(shí),就會(huì)發(fā)生“模型崩潰”。

          像 GMM 和 VAE 這樣的小型模型通常是從頭開(kāi)始訓(xùn)練的,而LLM 重新訓(xùn)練的成本非常高,因此通常使用如 BERT4、RoBERTa5 或 GPT-2 這樣在大型文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練的模型進(jìn)行初始化,然后針對(duì)各種下游任務(wù)進(jìn)行微調(diào)。

          那么當(dāng)語(yǔ)言模型依次使用其他模型生成的數(shù)據(jù)進(jìn)行微調(diào)時(shí)會(huì)發(fā)生什么?

          為此,研究團(tuán)隊(duì)使用 OPT-125m 語(yǔ)言模型進(jìn)行實(shí)驗(yàn),并使用 wikitext2 數(shù)據(jù)集進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果表明,無(wú)論是否保留原始數(shù)據(jù),模型崩潰現(xiàn)象都發(fā)生了。隨著迭代次數(shù)的增加,模型生成的樣本中低困惑度樣本的數(shù)量開(kāi)始積累,表明模型開(kāi)始忘記真實(shí)數(shù)據(jù)分布中的尾部事件。并且,與原始模型相比,后續(xù)迭代模型的性能有所下降,表現(xiàn)為困惑度增加。此外,模型生成的數(shù)據(jù)中包含大量重復(fù)的短語(yǔ)。

          圖 | 受模型崩潰影響的 OPT-125m 模型的文本輸出示例-模型在幾代之間退化。

          想象一下一個(gè)生成 AI 模型負(fù)責(zé)生成狗的圖像。AI 模型會(huì)傾向于重現(xiàn)訓(xùn)練數(shù)據(jù)中最常見(jiàn)的狗的品種,因此可能會(huì)過(guò)多地呈現(xiàn)金毛,而非法斗。如果隨后的模型在一個(gè) AI 生成的數(shù)據(jù)集中進(jìn)行訓(xùn)練,而這個(gè)數(shù)據(jù)集中過(guò)多地呈現(xiàn)了金毛,這個(gè)問(wèn)題就會(huì)加劇。經(jīng)過(guò)足夠多輪次的過(guò)多呈現(xiàn)金毛后,模型將忘記諸如法斗這樣的冷門品種的存在,只生成金毛的圖像。最終,模型將崩潰,無(wú)法生成有意義的內(nèi)容。

          圖 | 模型會(huì)逐漸忽視訓(xùn)練數(shù)據(jù)中不常見(jiàn)的元素。

          總而言之,模型會(huì)逐漸忘記真實(shí)語(yǔ)言中出現(xiàn)的低概率事件,例如罕見(jiàn)詞匯或短語(yǔ)。這會(huì)導(dǎo)致模型生成的內(nèi)容缺乏多樣性,并無(wú)法正確地模擬真實(shí)世界的復(fù)雜性。并且,模型會(huì)逐漸生成與真實(shí)世界不符的內(nèi)容,例如錯(cuò)誤的日期、地點(diǎn)或事件。這會(huì)導(dǎo)致模型生成的內(nèi)容失去可信度,并無(wú)法用于可靠的信息檢索或知識(shí)問(wèn)答等任務(wù)。此外,模型會(huì)逐漸學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中的偏見(jiàn)和歧視,并將其反映在生成的內(nèi)容中。

          為何會(huì)發(fā)生?


          模型崩潰是一個(gè)退化過(guò)程,模型生成的內(nèi)容會(huì)污染下一代的訓(xùn)練數(shù)據(jù),導(dǎo)致模型逐漸失去對(duì)真實(shí)數(shù)據(jù)分布的記憶。模型崩潰分為早期和晚期兩種情況:在早期階段,模型開(kāi)始失去對(duì)低概率事件的信息;到了晚期階段,模型收斂到一個(gè)與原始分布差異很大的分布,通常方差顯著減小。

          圖 | 對(duì)學(xué)習(xí)過(guò)程中反饋機(jī)制的高層次描述。

          隨著代數(shù)的增加,模型傾向于生成由最初模型更可能生成的樣本。同時(shí),后代模型的樣本分布尾部變得更長(zhǎng)。后代模型開(kāi)始生成原始模型絕不會(huì)生成的樣本,即它們開(kāi)始基于先前模型引入的錯(cuò)誤誤解現(xiàn)實(shí)。盡管在生成數(shù)據(jù)上訓(xùn)練的模型能夠?qū)W習(xí)部分原始任務(wù),但也會(huì)出現(xiàn)錯(cuò)誤,如困惑度增加所示。

          模型崩潰主要由三種誤差累積導(dǎo)致:

          1. 統(tǒng)計(jì)近似誤差:
          • 由于樣本數(shù)量有限,模型無(wú)法完全捕捉到真實(shí)數(shù)據(jù)分布的所有細(xì)節(jié)。隨著時(shí)間的推移,低概率事件(即分布的尾部)會(huì)逐漸消失,因?yàn)樗鼈儽徊蓸拥母怕屎艿汀?/span>
          • 隨著模型訓(xùn)練代數(shù)的增加,這種誤差會(huì)不斷累積,導(dǎo)致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

          2. 函數(shù)表達(dá)能力誤差:
          • 神經(jīng)網(wǎng)絡(luò)等函數(shù)近似器的表達(dá)能力是有限的,無(wú)法完美地逼近任何分布。
          • 這種誤差會(huì)導(dǎo)致模型在逼近真實(shí)分布時(shí)產(chǎn)生偏差,例如,將高密度區(qū)域分配到低密度區(qū)域,或者將低密度區(qū)域分配到高密度區(qū)域。
          • 隨著模型訓(xùn)練代數(shù)的增加,這種誤差會(huì)不斷累積,導(dǎo)致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

          3. 函數(shù)近似誤差:
          • 學(xué)習(xí)過(guò)程的局限性,例如隨機(jī)梯度下降的結(jié)構(gòu)偏差或目標(biāo)函數(shù)的選擇,也會(huì)導(dǎo)致模型產(chǎn)生誤差。
          • 這種誤差會(huì)導(dǎo)致模型在逼近真實(shí)分布時(shí)產(chǎn)生偏差,例如,過(guò)擬合密度模型導(dǎo)致模型錯(cuò)誤地外推數(shù)據(jù),并將高密度區(qū)域分配到訓(xùn)練集支持范圍之外的低密度區(qū)域。
          • 隨著模型訓(xùn)練代數(shù)的增加,這種誤差會(huì)不斷累積,導(dǎo)致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

          可以避免嗎?


          研究團(tuán)隊(duì)認(rèn)為,用 AI 生成數(shù)據(jù)訓(xùn)練一個(gè)模型并非不可能,但必須對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格過(guò)濾。

          首先,在每一代模型的訓(xùn)練數(shù)據(jù)中,保留一定比例的原始數(shù)據(jù),例如 10% 或 20%。這樣可以確保模型始終接觸到真實(shí)世界的樣本,避免完全依賴于模型生成的內(nèi)容。定期對(duì)原始數(shù)據(jù)進(jìn)行重采樣,并將其添加到訓(xùn)練數(shù)據(jù)中。這樣可以保證訓(xùn)練數(shù)據(jù)始終保持新鮮,并且能夠反映真實(shí)世界的最新變化。

          其次,可以使用多樣化的數(shù)據(jù)。例如,除了模型生成的內(nèi)容,還應(yīng)該使用人類產(chǎn)生的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。人類數(shù)據(jù)更加真實(shí)可靠,可以幫助模型更好地理解真實(shí)世界的復(fù)雜性和多樣性。此外,可以使用其他類型的機(jī)器學(xué)習(xí)模型生成的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),例如強(qiáng)化學(xué)習(xí)模型或模擬器。這樣可以保證訓(xùn)練數(shù)據(jù)來(lái)源的多樣性,并避免過(guò)度依賴于單一類型的模型。

          最后,可以嘗試改進(jìn)學(xué)習(xí)算法。研究更魯棒的語(yǔ)言模型訓(xùn)練算法,例如對(duì)抗訓(xùn)練、知識(shí)蒸餾或終身學(xué)習(xí)。這些算法可以幫助模型更好地處理訓(xùn)練數(shù)據(jù)中的噪聲和偏差,并提高模型的泛化能力。

          盡管這一警示似乎對(duì)當(dāng)前的生成式 AI 技術(shù)以及尋求通過(guò)它獲利的公司來(lái)說(shuō)都是令人擔(dān)憂的,但是從中長(zhǎng)期來(lái)看,或許能讓人類內(nèi)容創(chuàng)作者看到更多希望。

          研究人員表示,在充滿 AI 工具及其生成內(nèi)容的未來(lái)世界,如果只是作為 AI 原始訓(xùn)練數(shù)據(jù)的來(lái)源,人類創(chuàng)造的內(nèi)容將比今天更有價(jià)值。 


          租售GPU算力
          租:4090/A800/H800/H100
          售:現(xiàn)貨H100/H800

          特別適合企業(yè)級(jí)應(yīng)用
          掃碼了解詳情?


          點(diǎn)「在看」的人都變好看了哦!
          瀏覽 122
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  激情乱伦毛片 | 无码人妻精品一区二区三区99仓 | 欧美操逼视频 | 欧美日韩免费 | 操逼达人 |