吳恩達(dá)的2022年終盤點(diǎn):生成式AI、ViT、大模型
作者: 吳恩達(dá)? 編輯:智源社區(qū) 轉(zhuǎn)自:Datawhale
近日, 吳恩達(dá)在圣誕節(jié)的《The Batch》特刊上發(fā)布了一年一度的年終盤點(diǎn)。 在過(guò)去的一年,生成式AI迎來(lái)爆發(fā)式增長(zhǎng),由人工智能生成的圖片在社交平臺(tái)瘋狂傳播,引發(fā)大量爭(zhēng)議的同時(shí)也推動(dòng)了投資;視覺(jué) Transformer(ViT) 的工作也出現(xiàn)爆炸性增長(zhǎng),在過(guò)去一年中,研究人員共計(jì)發(fā)表超過(guò) 17,000 篇 ViT 論文;AlphaCode、Codex 等的推出便利了開(kāi)發(fā)者,大受歡迎;與此同時(shí),研究人員也在不斷拓寬語(yǔ)言模型的邊界,在解決可信度、偏見(jiàn)和實(shí)時(shí)性等問(wèn)題方面做出持續(xù)不斷的努力。 ?
親愛(ài)的朋友們:
隨著寒假的臨近,我突然想到,我們不是在面對(duì)人工智能的冬天,而是在一個(gè)人工智能炙熱的夏天。?
今天,人工智能創(chuàng)造的絕大多數(shù)經(jīng)濟(jì)價(jià)值都來(lái)自監(jiān)督式學(xué)習(xí)工具,經(jīng)過(guò)訓(xùn)練能夠生成簡(jiǎn)短的標(biāo)簽(如判斷垃圾郵件/非垃圾郵件)或一系列標(biāo)簽(如一段音頻的文本)。今年,建立在監(jiān)督式學(xué)習(xí)之上的生成式成為第二個(gè)主要工具,使人工智能能夠生成復(fù)雜且引人注目的圖像或文本段落。
以往開(kāi)發(fā)重要新工具(例如強(qiáng)化學(xué)習(xí))的一些嘗試,尚未取得與其鋪天蓋地的宣傳相稱的成果。但是生成式AI做得很好,它為人工智能應(yīng)用創(chuàng)造了一個(gè)新的范式。
而且監(jiān)督學(xué)習(xí)還遠(yuǎn)遠(yuǎn)沒(méi)有發(fā)揮出它的全部潛力! 依靠監(jiān)督學(xué)習(xí),仍然有數(shù)以百萬(wàn)計(jì)的的應(yīng)用有待開(kāi)發(fā)。 許多團(tuán)隊(duì)仍然在試圖找出通過(guò)監(jiān)督學(xué)習(xí)開(kāi)發(fā)產(chǎn)品的最佳實(shí)踐。
未來(lái),我期待著繼續(xù)與生成式AI共舞,為每個(gè)人創(chuàng)造大量的價(jià)值。 我感到很幸運(yùn)能活在這個(gè)時(shí)代,科技飛速發(fā)展,我們有機(jī)會(huì)一起創(chuàng)造未來(lái)! 能與我的家人和你們分享這個(gè)世界,我感到倍加幸運(yùn)。
節(jié)日快樂(lè),
Andrew
01
2022:人工智能閃耀的一年
節(jié)日將近,人們也許正一邊手捧著一杯熱可可,一邊催促 ChatGPT 建議節(jié)日禮物。這個(gè)特殊的時(shí)刻,讓我們回顧這一年人工智能所取得的巨大進(jìn)步。能夠生成類人的文本、圖像和代碼的系統(tǒng)(視頻和音樂(lè)也即將推出)讓用戶倍感驚喜,盡管有人對(duì)創(chuàng)造力的未來(lái)提出了質(zhì)疑。
?
這一年,解碼化學(xué)和物理學(xué)的模型推動(dòng)了科學(xué)發(fā)現(xiàn),同時(shí)政府則采取行動(dòng)推動(dòng)專用微處理器的供應(yīng),使這種創(chuàng)新成為可能。這些科技發(fā)展讓我們震驚的同時(shí),
在這期《 The Batch 》特刊中,我們將著重回顧人工智能在2022年創(chuàng)造的奇跡。
02
合成圖像遍天下
由人工智能制作的圖片像病毒一樣開(kāi)始瘋狂傳播,引發(fā)了爭(zhēng)議,推動(dòng)了投資。
大事件: 新一代的文生圖工具激發(fā)了大量的實(shí)驗(yàn),將文本描述轉(zhuǎn)化為迷人的藝術(shù)作品和照片,引發(fā)超現(xiàn)實(shí)主義的幻想。商業(yè)企業(yè)迅速將這項(xiàng)技術(shù)投入使用,使圖像生成成為創(chuàng)建和編輯圖形軟件的必備功能。
背后的驅(qū)動(dòng)力: 由于友好的用戶界面、具有高度娛樂(lè)性的輸出以及開(kāi)放的 API 和模型,能夠生成文字和圖像的模型成為人工智能的公眾名片。
-
OpenAI 在四月份推出了 DALL-E 2。超過(guò)150萬(wàn)用戶測(cè)試了這個(gè)模型,今年9月,公司將它推向了市場(chǎng)。微軟為 OpenAI 提供資金,以換取其作品的獨(dú)家商業(yè)版權(quán),并將該模式整合到 Azure AI-as-a-service 平臺(tái)中。
-
7月,只需操作按鈕的藝術(shù)家們用簡(jiǎn)單的 Craiyon 制作的相對(duì)粗糙的圖片,這些圖片在社交平臺(tái)上隨處可見(jiàn)。
-
Stability AI很快就加大了賭注,推出了開(kāi)源的擴(kuò)散模型(Stable Diffusion),最終吸引了超過(guò)1億美元的新資金。擴(kuò)散模型于去年11月升級(jí)到2.0版。
-
Adobe、Getty Images 和 Shutterstock 將圖像生成模型集成到他們自己的產(chǎn)品和服務(wù)中。
-
這些應(yīng)用根據(jù)給出的文本提示(prompt)會(huì)產(chǎn)生截然不同的結(jié)果。PromptBase 為生成有趣輸出的文本字符串打開(kāi)了一個(gè)市場(chǎng)。
-
Lensa AI 是一款照片編輯應(yīng)用程序,可以根據(jù)用戶的自拍生成藝術(shù)化身,它登上了app商店排行榜的榜首。它的成功帶來(lái)了一定程度的爭(zhēng)議,因?yàn)橛脩簦绕涫桥裕l(fā)現(xiàn)這個(gè)app使她們的圖片變得更加性感。
-
視覺(jué)藝術(shù)家在線社區(qū) ArtStation 推出了自己的“文字到圖像”功能。許多藝術(shù)家感到受到電腦程序的威脅,這些程序可以在幾秒鐘內(nèi)復(fù)制藝術(shù)家來(lái)之不易的個(gè)人風(fēng)格,因此開(kāi)始抵制該網(wǎng)站。
現(xiàn)狀: 來(lái)年將迎來(lái)一場(chǎng)計(jì)算機(jī)輔助創(chuàng)造力的革命。生成圖像的風(fēng)潮不會(huì)止步于圖片。谷歌和 Meta 今年發(fā)布了令人印象深刻的文本到視頻模型( https://www.deeplearning.ai/the-batch/googles-phenaki-generates-long-form-video-from-text/ ),而 OpenAI 將文本到 3D物體的生成速度提高到了一個(gè)新高度。( https://arxiv.org/abs/2212.08751? )
03
程序員的好朋友—編程工具大顯身手
軟件項(xiàng)目進(jìn)度落后?有個(gè)軟件可以幫你。 大事件: 事實(shí)證明,經(jīng)過(guò)計(jì)算機(jī)代碼微調(diào)的語(yǔ)言模型能夠生成類似于經(jīng)驗(yàn)豐富的開(kāi)發(fā)人員編寫的軟件例程ーー盡管結(jié)果可能是偶然的。 背后的驅(qū)動(dòng)力: 人工智能驅(qū)動(dòng)的代碼生成器進(jìn)入了大公司,甚至小規(guī)模公司的開(kāi)發(fā)人員(和非開(kāi)發(fā)人員)也可以訪問(wèn)它們。
-
今年年初,Ebay 將低代碼工具交到非工程師手中,使他們能夠在沒(méi)有人工智能或機(jī)器學(xué)習(xí)知識(shí)的情況下構(gòu)建和部署模型。
-
今年 2 月,DeepMind 推出了 AlphaCode( https://www.deeplearning.ai/the-batch/competitive-coder/ ),這是一款用 12 種編程語(yǔ)言對(duì) 8600 萬(wàn)個(gè)程序進(jìn)行預(yù)訓(xùn)練的 Transformer,并針對(duì)編碼競(jìng)賽的內(nèi)容進(jìn)行了微調(diào)。通過(guò)推理,它產(chǎn)生了一百萬(wàn)種可能的解決方案,并過(guò)濾掉了不佳的解決方案。通過(guò)這種方式,它在 10 次編程競(jìng)賽中擊敗了一半以上的參賽者。
-
今年 6 月,GitHub 開(kāi)放了 Copilot 的訪問(wèn)權(quán)限,這是一個(gè)能夠?qū)崟r(shí)提供代碼建議的自動(dòng)完成系統(tǒng)。雖然學(xué)生和經(jīng)過(guò)驗(yàn)證的開(kāi)源開(kāi)發(fā)者可以免費(fèi)訪問(wèn),但用戶需要支付訂閱費(fèi)。
缺點(diǎn): 這種技術(shù)的廣泛使用的版本還不能編寫復(fù)雜的程序。通常乍一看,它們的輸出看起來(lái)是正確的,但實(shí)際上卻存在錯(cuò)誤。此外,它們的法律地位可能還有待商榷。一項(xiàng)針對(duì) GitHub、 OpenAI 和微軟的集體訴訟聲稱,Codex 的訓(xùn)練違反了開(kāi)源許可協(xié)議。這一結(jié)果可能會(huì)對(duì)生成文本、圖像和其它媒體數(shù)據(jù)的模型產(chǎn)生法律影響。 現(xiàn)狀: 人工智能驅(qū)動(dòng)的編程工具不太可能在不久的將來(lái)取代人類程序員,但它們可能會(huì)取代技術(shù)問(wèn)答網(wǎng)站 Stack Overflow,成為開(kāi)發(fā)人員最依賴的輔助工具。
04
人工智能之眼進(jìn)化
視覺(jué) Transformer(ViT) 的工作在 2022 年出現(xiàn)爆炸性增長(zhǎng)。 大事件: 在這一年中,研究人員發(fā)表了超過(guò) 17,000 篇 ViT 論文。其中一個(gè)主題是: 將自注意力和卷積結(jié)合起來(lái)。 背后的驅(qū)動(dòng)力: 谷歌大腦的一個(gè)團(tuán)隊(duì)在 2020 年引入了視覺(jué) Transformer(ViT, https://arxiv.org/abs/2010.11929? ) 。從此,視覺(jué) Transformer 的架構(gòu)經(jīng)歷了不斷的改進(jìn)。一系列最近的工作使 ViT 適應(yīng)新的任務(wù)并解決其缺點(diǎn)。
-
用海量數(shù)據(jù)訓(xùn)練 ViT 可以得到最好的性能,因此 Meta 和索邦大學(xué)的研究人員專注于提高 ViT 在包含數(shù)百萬(wàn)條數(shù)據(jù)的數(shù)據(jù)集上的性能( https://www.deeplearning.ai/the-batch/a-formula-for-training-vision-transformers/ )。他們利用 Transformer 特有的已建立的程序(如數(shù)據(jù)增強(qiáng)和模型正則化)的適配來(lái)提高模型性能。
-
Inha 大學(xué)的研究人員修改了兩個(gè)關(guān)鍵部件,使得 ViT與卷積神經(jīng)網(wǎng)絡(luò)更相似( https://www.deeplearning.ai/the-batch/less-data-for-vision-transformers/ )。首先,他們將圖像分割成重疊更多的圖塊(patch)。其次,他們修改了自注意力機(jī)制,使其關(guān)注與圖塊相鄰的圖塊,而不是圖塊本身,并使其能夠?qū)W習(xí)是否更均勻或更有選擇性地權(quán)衡相鄰的圖塊。這些修改極大地提高了精度。
-
印度理工學(xué)院孟買校區(qū)的研究人員為 ViT 配備了卷積層( https://www.deeplearning.ai/the-batch/upgrade-for-vision-transformers/ )。由于重量共享機(jī)制,卷積帶來(lái)了像素的局部處理和更小的內(nèi)存占用等好處。在精度和速度方面,他們的卷積 ViT 優(yōu)于普通的 ViT 和運(yùn)行時(shí)優(yōu)化的 Transformer(如 Performer,Nystr?former 和線性 Transformer)。其他團(tuán)隊(duì)采取了類似的方法。
現(xiàn)狀: 在過(guò)去的一年中,視覺(jué) Transformer 的應(yīng)用范圍擴(kuò)大了。ViT 可以生成逼真的連續(xù)視頻幀,利用 2D 圖像序列生成3D 場(chǎng)景,并在點(diǎn)云中檢測(cè)目標(biāo)。很難想象在沒(méi)有 ViT 的情況下,最近研究者們能夠取得基于擴(kuò)散模型的文本到圖像生成器的進(jìn)展。
05
語(yǔ)言模型持續(xù)擴(kuò)展
研究人員推動(dòng)了語(yǔ)言模型的邊界,以解決可信度、偏見(jiàn)和可更新性等持續(xù)存在的問(wèn)題。 大事件: 許多人工智能實(shí)驗(yàn)室的目標(biāo)是通過(guò)改進(jìn)數(shù)據(jù)集和訓(xùn)練方法(包括訓(xùn)練 Transformer 翻譯1000 種語(yǔ)言的方法)使大規(guī)模語(yǔ)言模型更加復(fù)雜( https://www.deeplearning.ai/the-batch/machine-learning-model-trained-to-translate-1-000-languages/ ),而其它實(shí)驗(yàn)室則擴(kuò)展了模型架構(gòu),以搜索 Web 網(wǎng)頁(yè)、查閱外部文檔和適應(yīng)新信息。 背后的驅(qū)動(dòng)力: 語(yǔ)言模型產(chǎn)生似是而非的文本的能力超過(guò)了它們辨別事實(shí)、避免編造幻想和表達(dá)社會(huì)偏見(jiàn)的能力。研究人員致力于使他們的研究結(jié)果更加可靠,而不是那么具有煽動(dòng)性。
-
2021 年底,DeepMind 提出了 RETRO 模型( https://www.deeplearning.ai/the-batch/large-language-models-shrink/ ),該模型可以從 MassiveText 數(shù)據(jù)集中檢索段落,并將其整合到輸出中。
-
AI21 實(shí)驗(yàn)室春季發(fā)布的 Jurassic -X 引入了一系列模塊( https://www.deeplearning.ai/the-batch/neural-nets-rules-truer-text/ )——包括一個(gè)計(jì)算單元和一個(gè)查詢維基百科的系統(tǒng)——利用事實(shí)核查語(yǔ)言模型對(duì)數(shù)學(xué)問(wèn)題、歷史事實(shí)等的答案。
-
斯坦福大學(xué)和洛桑聯(lián)邦理工學(xué)院的研究人員創(chuàng)建了 SERAC 系統(tǒng)( https://www.deeplearning.ai/the-batch/update-any-language-model/ ),該系統(tǒng)可以用新的信息更新語(yǔ)言模型,而無(wú)需重新訓(xùn)練它們。他們使用單獨(dú)的系統(tǒng)存儲(chǔ)新數(shù)據(jù),學(xué)習(xí)為與該數(shù)據(jù)相關(guān)的查詢提供輸出。
-
Meta 構(gòu)建了語(yǔ)言模型 Atlas( https://www.deeplearning.ai/the-batch/how-small-language-models-can-perform-specialized-tasks/ ),通過(guò)從文檔數(shù)據(jù)庫(kù)中檢索信息來(lái)回答問(wèn)題。8 月份發(fā)布后,這一方法使 110 億參數(shù)的 Atlas 在回答問(wèn)題時(shí)的表現(xiàn)超過(guò)了具有 5400 億參數(shù)的 PaLM。
-
今年晚些時(shí)候,OpenAI 對(duì) ChatGPT 進(jìn)行了微調(diào)( https://www.deeplearning.ai/the-batch/how-ai-professionals-reacted-to-chatgpt-on-twitter/ ),從而最小化不真實(shí)、有偏見(jiàn)或有害的輸出。人類對(duì)模型的訓(xùn)練數(shù)據(jù)質(zhì)量進(jìn)行排名,然后用強(qiáng)化學(xué)習(xí)算法對(duì)模型產(chǎn)生的輸出給出獎(jiǎng)勵(lì),這些輸出與排名靠前的輸出類似。
-
這些技術(shù)發(fā)展加強(qiáng)了對(duì)語(yǔ)言評(píng)測(cè)基準(zhǔn)的需求,從而評(píng)估更多樣化和微妙的能力。為此,超過(guò)130 個(gè)機(jī)構(gòu)合作開(kāi)發(fā)了“BIG-bench”( https://www.deeplearning.ai/the-batch/toward-next-gen-language-models/ ),它包括根據(jù)表情符號(hào)推斷電影名稱、參與模擬審查以及檢測(cè)邏輯謬誤等任務(wù)。
06
全能模型
大事件: 某些多任務(wù)深度學(xué)習(xí)模型在數(shù)百個(gè)任務(wù)中證明了它們所向披靡。多任務(wù)模型的范疇在過(guò)去的一年里急劇擴(kuò)大。
背后驅(qū)動(dòng)力: 研究人員推動(dòng)了神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)技能數(shù)量的極限。他們的靈感來(lái)自于大規(guī)模語(yǔ)言模型的新興技能ーー比如,在不調(diào)整架構(gòu)的情況下創(chuàng)作詩(shī)歌和編寫計(jì)算機(jī)程序的能力ーー以及經(jīng)過(guò)文本和圖像訓(xùn)練的模型找到不同數(shù)據(jù)類型之間對(duì)應(yīng)關(guān)系的能力。
-
今年春天,谷歌的 PalM 在涉及語(yǔ)言理解和生成的數(shù)百項(xiàng)小樣本學(xué)習(xí)任務(wù)中取得了目前最優(yōu)的結(jié)果。在某些情況下,它的表現(xiàn)優(yōu)于經(jīng)過(guò)微調(diào)的模型或人類的平均表現(xiàn)。
-
不久后,DeepMind 推出了一款名為 Gato 的 Transformer 模型( https://www.deeplearning.ai/the-batch/one-model-hundreds-of-tasks/ ),它學(xué)會(huì)了完成 600 多種不同的任務(wù)ーー玩 Atari 游戲、用機(jī)器臂堆積木、生成圖片描述等等ーー盡管不一定比專門用于這些任務(wù)的獨(dú)立模型更好。該系統(tǒng)同時(shí)接受了多種數(shù)據(jù)集的監(jiān)督訓(xùn)練(從文本、圖像到強(qiáng)化學(xué)習(xí)智能體生成的動(dòng)作等)。
-
隨著這一年接近尾聲,谷歌研究人員也將類似的能力引入了機(jī)器人領(lǐng)域。RT-1 是一種使機(jī)器人能夠執(zhí)行超過(guò) 700 項(xiàng)任務(wù)的 Transformer模型。該系統(tǒng)對(duì)動(dòng)作和圖像進(jìn)行詞例化,利用近一年半的機(jī)器人隊(duì)伍收集的 130,000 個(gè) episode 構(gòu)成的數(shù)據(jù)集學(xué)習(xí)。與先前的技術(shù)相比,它在新的任務(wù)、環(huán)境和對(duì)象中取得了出色性能。
現(xiàn)狀: 我們?nèi)匀惶幱跇?gòu)建算法的早期階段,這些算法可以泛化到數(shù)百個(gè)不同的任務(wù)上。這一年的進(jìn)展表明,深度學(xué)習(xí)有潛力幫助我們實(shí)現(xiàn)這一目標(biāo)。
往期精彩:
?深度學(xué)習(xí)論文精讀[14]:Vision Transformer
?深度學(xué)習(xí)論文精讀[13]:Deeplab v3+
?深度學(xué)習(xí)論文精讀[12]:Deeplab v3
?深度學(xué)習(xí)論文精讀[11]:Deeplab v2
?深度學(xué)習(xí)論文精讀[10]:Deeplab v1
?深度學(xué)習(xí)論文精讀[8]:ParseNet
? 深度學(xué)習(xí)論文精讀[5]:Attention UNet
?深度學(xué)習(xí)論文精讀[4]:RefineNet
