深度生成模型:實現(xiàn)通用人工智能最有前途方法之一
公眾號【機器學(xué)習(xí)與AI生成創(chuàng)作】后臺回復(fù):168??蓞⑴c免費寄送【深度生成模型】圖書活動,活動截止日期為 2023-09-17 晚上10點 。
也可自行購買,戳如下優(yōu)惠京東專屬鏈接:
What I cannot create, I do not understand.
——Richard Feynman
來自諾貝爾物理學(xué)獎獲得者費曼的這句話,一直在叩響著人工智能研究者的內(nèi)心,OpenAI的研究也一直秉承著一個核心愿望,那就是“開發(fā)算法和技術(shù),讓計算機了解我們的世界。”
目前有兩種方式來讓計算機了解我們的世界,那就是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。
其中,監(jiān)督學(xué)習(xí)雖有很大的技術(shù)進步,但是最大短板在于數(shù)據(jù)標注過程往往既耗時又昂貴,甚至可能是不道德,乃至不可能實現(xiàn)的。這就是為什么我們越來越意識到無監(jiān)督學(xué)習(xí)(或者自監(jiān)督學(xué)習(xí))方法的重要性。
無監(jiān)督學(xué)習(xí)最切合人類學(xué)習(xí)知識的模型,就像一個小孩在長大的過程中,不會有人一直告訴他們所看到和聽到的信息都是什么,接觸的關(guān)于世界的信息大部分都是未標注的,需要在無監(jiān)督的狀態(tài)下學(xué)習(xí)世界的規(guī)律,即自己去從數(shù)據(jù)中尋找模式和結(jié)構(gòu)。
而深度生成模型就是無監(jiān)督學(xué)習(xí)的最有效方法之一,也是OpenAI公司說的“實現(xiàn)通用人工智能最有前途方法之一”。
《深度生成模型》這本書涵蓋了深度生成模型的多種類型,包括自回歸模型、流模型、隱變量模型、基于能量的模型等,主要講述如何將概率建模和深度學(xué)習(xí)結(jié)合起來去構(gòu)建可以量化周邊環(huán)境不確定性的強大的AI系統(tǒng)。
這種AI系統(tǒng)可以從生成的角度來理解周邊世界。
書中提及的這些模型構(gòu)成了以 ChatGPT 為代表的大語言模型,以及以 Stable Diffusion 為代表的擴散模型等深度生成模型背后的技術(shù)基石。

正如譯者所說,翻譯這本書,把他從ChatGPT 的出現(xiàn)帶來的炙熱、焦慮和無所適從中帶出來,而更多的是冷靜思考。因此對于新技術(shù),只有了解其背后原理才能讓人泰然處之。

對于大語言模型等新技術(shù),雖然我們也許無法全部掌握,但其背后的大部分基礎(chǔ)內(nèi)容在本書中都有所體現(xiàn),只要認真閱讀本書,推導(dǎo)公式,運行代碼,學(xué)習(xí)各種生成模型的發(fā)展及其應(yīng)用,就會讓我們更加從容地了解和面對新技術(shù)。
ChatGPT 背后的 Tranformer 架構(gòu)及其從 GPT-1、GPT-2 到 BERT、GPT-3等相關(guān)模型,都基于本書第 4 章所述的自動編碼器和第 2 章所述的自回歸模型發(fā)展而來。ChatGPT 及其他相關(guān)大語言模型主要集中在數(shù)據(jù)采集、數(shù)據(jù)規(guī)模和質(zhì)量及模型參數(shù)擴展上,但其生成模型基礎(chǔ)架構(gòu)仍然基于本書所述,只是對語言模型進行了優(yōu)化。
除了上述的文本生成圖像或文本生成文本的生成模型,更多多模態(tài)應(yīng)用正在如火如荼地發(fā)展,例如從文本到 3D 模型(Dreamfusion、Magic3D)、視頻(Phenaki、Soundify)、語音(AudioLM、Whisper、Jukebox)、代碼(CodeX、Alphacode),以及從圖像生成文本的模型(Flamingo、VisualGPT)等。這些應(yīng)用的技術(shù)基石都可以在本書中找到。

本書的特別之處在于,像孩子們通過搭積木去學(xué)習(xí)物理規(guī)律一樣,本書讀者可以通過代碼來學(xué)習(xí)深度生成模型。
本書作者在這個領(lǐng)域發(fā)表了大量論文,對該領(lǐng)域有深刻的認知。

本書可以作為概率生成模型課程的教材。

