Nature最新封面:AI訓(xùn)練AI?也許越來(lái)越笨
共 4694字,需瀏覽 10分鐘
·
2024-07-25 12:35
當(dāng)前,在愈發(fā)火熱的大模型行業(yè),Scaling Law 被證明依然奏效。
問(wèn)題是,一旦由人類生成的高質(zhì)量數(shù)據(jù)(如書(shū)籍、文章、照片、視頻等)用盡,大模型訓(xùn)練又該如何進(jìn)行?
什么是模型崩潰?
圖 | 受模型崩潰影響的 OPT-125m 模型的文本輸出示例-模型在幾代之間退化。
圖 | 模型會(huì)逐漸忽視訓(xùn)練數(shù)據(jù)中不常見(jiàn)的元素。
為何會(huì)發(fā)生?
圖 | 對(duì)學(xué)習(xí)過(guò)程中反饋機(jī)制的高層次描述。
-
由于樣本數(shù)量有限,模型無(wú)法完全捕捉到真實(shí)數(shù)據(jù)分布的所有細(xì)節(jié)。隨著時(shí)間的推移,低概率事件(即分布的尾部)會(huì)逐漸消失,因?yàn)樗鼈儽徊蓸拥母怕屎艿汀?/span> -
隨著模型訓(xùn)練代數(shù)的增加,這種誤差會(huì)不斷累積,導(dǎo)致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。
-
神經(jīng)網(wǎng)絡(luò)等函數(shù)近似器的表達(dá)能力是有限的,無(wú)法完美地逼近任何分布。 -
這種誤差會(huì)導(dǎo)致模型在逼近真實(shí)分布時(shí)產(chǎn)生偏差,例如,將高密度區(qū)域分配到低密度區(qū)域,或者將低密度區(qū)域分配到高密度區(qū)域。 -
隨著模型訓(xùn)練代數(shù)的增加,這種誤差會(huì)不斷累積,導(dǎo)致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。
-
學(xué)習(xí)過(guò)程的局限性,例如隨機(jī)梯度下降的結(jié)構(gòu)偏差或目標(biāo)函數(shù)的選擇,也會(huì)導(dǎo)致模型產(chǎn)生誤差。 -
這種誤差會(huì)導(dǎo)致模型在逼近真實(shí)分布時(shí)產(chǎn)生偏差,例如,過(guò)擬合密度模型導(dǎo)致模型錯(cuò)誤地外推數(shù)據(jù),并將高密度區(qū)域分配到訓(xùn)練集支持范圍之外的低密度區(qū)域。 -
隨著模型訓(xùn)練代數(shù)的增加,這種誤差會(huì)不斷累積,導(dǎo)致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。
可以避免嗎?
評(píng)論
圖片
表情
