年末回顧:2021年 AI 領(lǐng)域十大研究趨勢(shì)及必讀論文

編 | 小軼,Yimin_飯煲??
來源?|?夕小瑤的賣萌屋
在本文中,我們將梳理近百篇的最新深度學(xué)習(xí)論文,以總結(jié)出“2021 年十大 AI 研究趨勢(shì)”。AI 領(lǐng)域的論文可謂層出不窮。這篇文章或許能幫助你跟蹤總體趨勢(shì)和重要研究。下文中提及的部分工作可能并不發(fā)表于 2021 年,但對(duì)于形成 2021 年的 AI 趨勢(shì)也起到了重要作用,因而也在本文中列出。
1. OpenAI CLIP
OpenAI今年年初發(fā)布的CLIP模型可以說是今年AI行業(yè)最重要的里程碑。 CLIP模型看起來似乎只是是隱藏在模型"DALL·E"背后的一個(gè)不顯眼的存在。不過在OpenAI的CLIP模型發(fā)布之初,我就認(rèn)為CLIP模型無論從上層應(yīng)用還是底層模型架構(gòu)來看都是一個(gè)非常重要的工作。正如我所預(yù)期的那樣,CLIP 的使用量快速增長。在 Kevin Zakka的博文[1]指出,"鑒于CLIP在該領(lǐng)域的影響力,很遺憾它與DALL·E 同時(shí)宣布"(也即DALL·E掩蓋了CLIP模型的風(fēng)頭)" "傳統(tǒng)的基于固定標(biāo)簽類別的視覺監(jiān)督學(xué)習(xí)已死", 還有一些博文稱“OpenAI的CLIP是今年計(jì)算機(jī)視覺最重要的發(fā)展”。
CLIP的機(jī)制非常簡單。使用可以從網(wǎng)絡(luò)上大量獲取的大量圖像以及與之相關(guān)的文本來預(yù)訓(xùn)練CLIP模型中相應(yīng)的圖像和文本編碼器。如果文本和圖像內(nèi)容匹配,模型將給出高相似度,否則將給出低相似度。
為什么CLIP模型這么有用? 首先,考慮從圖片到文字的方向,可以通過輸入圖片從多個(gè)選項(xiàng)中選擇最匹配圖片的文字對(duì)圖片進(jìn)行分類。傳統(tǒng)的圖像分類一般是在多分類框架中解決,從一個(gè)固定的類中選擇一個(gè)正確的答案,但是使用CLIP,圖像使用未定義范圍的自然語言文本進(jìn)行分類。通過將標(biāo)簽轉(zhuǎn)化為自然語言文本,可以無需使用特定下游任務(wù)的數(shù)據(jù)對(duì)CLIP進(jìn)行微調(diào)就進(jìn)行分類,因此可以實(shí)現(xiàn)“零樣本學(xué)習(xí)”。

相反,考慮到從文本到圖像的方向,如果輸入某個(gè)文本,對(duì)圖像進(jìn)行優(yōu)化,使其與文本的相似度變大,就可以用自然語言生成圖像。準(zhǔn)確地說,它通過優(yōu)化其潛在表示并結(jié)合使用大量圖像預(yù)訓(xùn)練的圖像生成模型來生成圖像,例如 VQGAN。VQGAN + CLIP的這種組合在今年年中成為網(wǎng)絡(luò)上的一大話題,因?yàn)樗梢暂p松生成高質(zhì)量的圖像。近來,一種結(jié)合擴(kuò)散模型(詳細(xì)信息將在后面描述)和CLIP的“CLIP引導(dǎo)擴(kuò)散模型(CLIP Guided Diffusion Models)”也成為了熱門話題。
除了圖像分類和圖像生成任務(wù)之外,CLIP模型作為“通用圖像理解引擎”的各種用途正在擴(kuò)展。在前面提到的Kevin Zakka博文中,在視覺領(lǐng)域,通過實(shí)際例子介紹了利用CLIP模型解決reCAPTCHA、目標(biāo)檢測(cè)、顯著圖可視化等各種任務(wù)中的應(yīng)用。此外,在一篇題為“How Much Can CLIP Benefit Vision-and-Language Tasks?”的論文中,CLIP可以用于VQA、Image Captioning和視覺語言導(dǎo)航(Vision-Language Navigation)之類的任務(wù),并且已達(dá)到與強(qiáng)大Baseline相當(dāng)或超過的性能。CLIPScore實(shí)現(xiàn)了無參考文本的Image Captioning生成性能評(píng)估。CLIP模型也可以被用于基于NeRF的場(chǎng)景生成、物理AI、機(jī)器人技術(shù)。
最近,AudioCLIP和Wav2CLIP擴(kuò)展了 CLIP 以學(xué)習(xí)音頻、圖像和文本三種模態(tài)之間的關(guān)系。許多工作提出了CLIP模型的擴(kuò)展和改進(jìn),例如 Lite和SLIP。
2. 自監(jiān)督學(xué)習(xí)/對(duì)比學(xué)習(xí)
自監(jiān)督學(xué)習(xí)是一種通過從數(shù)據(jù)本身創(chuàng)建偽監(jiān)督信號(hào)來學(xué)習(xí)機(jī)器學(xué)習(xí)模型的方法。目前最流行的自監(jiān)督學(xué)習(xí)方法是BERT中著名的掩碼語言模型(MLM)。MLM被廣泛應(yīng)用于各種預(yù)訓(xùn)練方法之中。自監(jiān)督學(xué)習(xí)中一個(gè)重要的分支是對(duì)比學(xué)習(xí),它使用數(shù)據(jù)之間的“相似/不相似”關(guān)系作為訓(xùn)練時(shí)的監(jiān)督信號(hào)。它的簡單性和強(qiáng)大的表示學(xué)習(xí)能力使其在過去幾年中廣泛應(yīng)用于各種人工智能任務(wù)。
對(duì)比學(xué)習(xí)并不是什么新鮮的概念。多年之前,在自然語言處理領(lǐng)域流行的Word2Vec和Quick Thoughts中已經(jīng)使用了類似的技術(shù)。
近年來在NLP領(lǐng)域中,ELECTRA通過檢測(cè)自然語言文本中的替換詞進(jìn)行自監(jiān)督學(xué)習(xí),CLEAR通過數(shù)據(jù)擴(kuò)展和對(duì)比學(xué)習(xí)獲得高質(zhì)量的句子表示,DeCLUTR使用從文檔中采樣的文本片段訓(xùn)練高質(zhì)量的句子表示,SimCSE則是一種只需要兩個(gè)輸入到編碼器的簡單有效的句子表示方法。
在計(jì)算機(jī)視覺領(lǐng)域,從大量標(biāo)記圖像(例如ImageNet)中進(jìn)行有監(jiān)督的預(yù)訓(xùn)練已經(jīng)很普遍。然而,在過去幾年中,自監(jiān)督學(xué)習(xí)和對(duì)比學(xué)習(xí)技術(shù)變得非常流行。最典型的是 SimCLR 和 SimCLRv2,它們通過將不同的數(shù)據(jù)擴(kuò)展應(yīng)用于單個(gè)圖像來進(jìn)行表示學(xué)習(xí)。此外,MoCo使用動(dòng)量編碼器進(jìn)行對(duì)比學(xué)習(xí),BYOL通過一種從頭開始創(chuàng)建隱表示的自監(jiān)督學(xué)習(xí)方法及無標(biāo)簽的知識(shí)蒸餾提升性能。還有許多其他方法被提出,例如DINO和SimSiam。上面介紹的CLIP也是基于對(duì)比學(xué)習(xí)訓(xùn)練的。
最近,MAE和SimMIM這兩種使用與掩碼語言模型類似的思想進(jìn)行計(jì)算機(jī)視覺的自監(jiān)督學(xué)習(xí)方法也成為熱門話題。
3. 多層感知器 (MLP) 的復(fù)興
2021 年也是多層感知器 (MLP) 蓬勃發(fā)展的一年。 雖然它是一個(gè)簡單的模型,可以稱為僅使用線性層和激活函數(shù)的“原始神經(jīng)網(wǎng)絡(luò)”,但當(dāng)它通過具有復(fù)雜架構(gòu)的現(xiàn)代方法進(jìn)行訓(xùn)練時(shí),它已經(jīng)顯示出驚人的強(qiáng)大性能。
在圖像分類中,無需使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和 Transformer 中廣泛使用的注意力機(jī)制,只需將圖像Patch和MLP相結(jié)合即可實(shí)現(xiàn)高性能和高速度的圖像分類器。 2021年有大量基于MLP的模型出現(xiàn),包括Mixer, gMLP還有Meta AI提出的ResMLP和RepMLP。
截止到2021年12月,盡管研究者們因?yàn)?MLP或許將成為超越Transformer的模型"而激動(dòng)不已,但MLP還沒有通過替換Transformer而普及。在最近發(fā)表的MLP綜述論文"Are you ready for a new paradigm shift?"中指出,在目前的訓(xùn)練規(guī)模上,歸納偏置(Inductive bias)仍然有存在的必要,也即根據(jù)任務(wù)和數(shù)據(jù)設(shè)計(jì)模型結(jié)構(gòu)仍然能在絕大多數(shù)情況下取得更好的效果。 此外,MLP還有一個(gè)未解決的問題,就是其性能嚴(yán)重依賴于輸入分辨率。
4. 第三個(gè)深度學(xué)習(xí)庫 JAX
JAX是一個(gè)似乎同時(shí)具備Pytorch和Tensorflow優(yōu)勢(shì)的深度學(xué)習(xí)框架。 JAX 是 Google Research 開發(fā)的機(jī)器學(xué)習(xí)庫,被稱為“在 GPU/TPU上運(yùn)行的具有自動(dòng)微分功能的Numpy”,該庫的核心是類似 Numpy 的向量和矩陣運(yùn)算。我個(gè)人認(rèn)為,與Numpy和PyTorch/TensorFlow最大的不同在于JAX是“(純)面向函數(shù)的”,對(duì)于自動(dòng)微分和誤差反向傳播的處理方式有著根本的不同。
如果你在“PyTorch vs TensorFlow in 2022”這篇博客文章[2]中閱讀了Hacker News的評(píng)論部分,以及標(biāo)題為“2022 Are you a PyTorch sect? TensorFlow sect?”的 Reddit 帖子[3]中的許多評(píng)論,諸如“人們開始轉(zhuǎn)向JAX”、“使用 JAX”和“JAX 正在取代 TensorFlow”這樣的評(píng)論表明它甚至在社區(qū)基礎(chǔ)上也逐漸流行起來。
2021 年,DeepMind 發(fā)表的許多優(yōu)秀研究在其實(shí)現(xiàn)中使用 JAX 和基于 JAX 的神經(jīng)網(wǎng)絡(luò)庫Haiku。視覺Transformer和MLP-Mixer的實(shí)現(xiàn)中也使用了基于JAX的深度學(xué)習(xí)庫Flax。最近,谷歌發(fā)布了一個(gè)基于JAX的計(jì)算機(jī)視覺庫SCENIC,它利用視覺Transformer以統(tǒng)一的方式解決圖像、視頻和音頻任務(wù)。
在自然語言處理(NLP)領(lǐng)域,F(xiàn)lax 已經(jīng)正式被用于NLP的流行框架 HuggingFace Transformers 和目前開源最強(qiáng)的語言模型GPT-J。我經(jīng)常使用Haiku(一個(gè)基于JAX的神經(jīng)網(wǎng)絡(luò)庫),并使用JAX的并行化機(jī)制xmap進(jìn)行模型并行化。今年6月發(fā)布的Cloud TPU VM也有助于使 TPU 更易于使用。總之,我們期待著“2022年是JAX年”的未來發(fā)展。
5. 擴(kuò)散模型
“擴(kuò)散模型”通過逐漸向數(shù)據(jù)中添加噪聲并學(xué)習(xí)相反的去噪過程來生成圖像和語言。 “Beyond GAN in image generation”、“Likelihood-based SOTA”、“Applicable to language generation”等非常劃時(shí)代的方法和論文陸續(xù)公布。擴(kuò)散模型可以被稱為是2021年最大趨勢(shì)的其中之一。
2019-2020年,擴(kuò)散模型的基礎(chǔ)研究開始活躍起來。首先是基于使用分?jǐn)?shù)的“分?jǐn)?shù)匹配”的生成模型以及使用擴(kuò)散概率模型的高質(zhì)量圖像生成方法. 從Denoising Diffusion Probabilistic Models開始,對(duì)擴(kuò)散模型的在圖像生成領(lǐng)域的研究開始變得活躍。
另一方面,與其他基于似然性的方法(如自回歸模型)相比,擴(kuò)散模型存在無法獲得更好似然性的問題。2021年,研究者們改進(jìn)了OpenAI的擴(kuò)散模型Improved Denoising Diffusion Probabilistic Models和The diffusion model exceeded GAN in image generation來解決這個(gè)問題。他們的論文Diffusion Models Beat GANs on Image Synthesis發(fā)表并成為一個(gè)熱門話題。此外,擴(kuò)散模型也被應(yīng)用于其他模態(tài),包括D3PM應(yīng)用于文本生成,DiffWave和WaveGrad應(yīng)用于語音生成等。
最后,最近出現(xiàn)了“CLIP引導(dǎo)的擴(kuò)散模型(CLIP guided diffusion model)”,它將擴(kuò)散模型應(yīng)用于從文本生成圖像,類似于上述使用 VQGAN+CLIP的圖像生成。
6. 以數(shù)據(jù)為中心的人工智能

早些年,有一種以數(shù)據(jù)為中心的“數(shù)據(jù)編程”技術(shù)。當(dāng)年基于該技術(shù)起家的創(chuàng)業(yè)公司 Snorkel.ai,目前已市場(chǎng)估值超過百億,加入獨(dú)角獸行列。
而今年,“以數(shù)據(jù)為中心的人工智能”再度成為 AI 新趨勢(shì),又大火了一把。其背后的推動(dòng)力是 DeepLearning.ai / Landing.ai 的領(lǐng)導(dǎo)者 Andrew Ng 在今年 3 月發(fā)布的名為 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI 的演講。在研討會(huì)上,他倡導(dǎo)“以數(shù)據(jù)為中心的 AI”作為一個(gè)清晰的概念,引發(fā)學(xué)術(shù)界的廣泛認(rèn)同和討論。Andrew 介紹了他當(dāng)時(shí)負(fù)責(zé)的一個(gè)項(xiàng)目。該項(xiàng)目旨在開發(fā)一個(gè)用 CV 技術(shù)檢測(cè)產(chǎn)品缺陷的系統(tǒng)。經(jīng)過兩周的開發(fā)期,他們發(fā)現(xiàn)通過改進(jìn)模型并沒有帶來明顯準(zhǔn)確率的提升,而改進(jìn)數(shù)據(jù)卻帶來了 16.9% 的性能提升。
之后,Andrew 又領(lǐng)導(dǎo) Landing.ai / DeepLearning.ai 舉辦了一場(chǎng)以數(shù)據(jù)為中心的人工智能競賽。與 Kaggle 等傳統(tǒng) AI 競賽截然,這場(chǎng)比賽并不是下載標(biāo)準(zhǔn)數(shù)據(jù)集,然后改進(jìn)模型端,而是通過改進(jìn)數(shù)據(jù)端以提高結(jié)果。今年晚些時(shí)候,還與 NeurIPS 2021 國際會(huì)議一起舉辦了以數(shù)據(jù)為中心的 AI 研討會(huì)。一篇論文[4]也談到了“那些自稱基準(zhǔn)數(shù)據(jù)集的 benchmark 也充斥著各種數(shù)據(jù)錯(cuò)誤”。
“數(shù)據(jù)對(duì)人工智能很重要”,這一點(diǎn)或許不用多說。很多人在將 AI 應(yīng)用于現(xiàn)實(shí)世界的問題時(shí),通過權(quán)衡“數(shù)據(jù)改進(jìn)”和“模型改進(jìn)”,或多或少都意識(shí)到數(shù)據(jù)改進(jìn)具有很大的效益。但是,能在今年推出“以數(shù)據(jù)為中心的人工智能”的這一明確概念進(jìn)行傳播,并得到學(xué)術(shù)界廣泛認(rèn)可,依然是一個(gè)巨大的進(jìn)步。
7. 語音無監(jiān)督表示學(xué)習(xí)
2021 年,也是語音(語音、音頻、音樂)技術(shù)取得重大突破的一年。
自 2020 年以來,語音的自監(jiān)督學(xué)習(xí)得到了積極的研究,并應(yīng)用于各種任務(wù),例如 wav2vec 2.0。與文本和圖像一樣,通過收集大量未注釋的數(shù)據(jù)并進(jìn)行預(yù)訓(xùn)練學(xué)習(xí),顯著提高了在語音識(shí)別等各類語音任務(wù)上的性能。即使在 2021 年,自監(jiān)督的研究勢(shì)頭也依然持續(xù)。SSAST 通過 mask 語音塊來預(yù)訓(xùn)練學(xué)習(xí)高質(zhì)量的語音表示。近日,[5] 則提出了一種用于學(xué)習(xí)語音、環(huán)境聲音和音樂的通用語音表達(dá)的方法。
隨著語音的表示學(xué)習(xí)方法變得越來越強(qiáng)大,今年各個(gè)語音任務(wù)上都有不小的突破。今年年中,F(xiàn)acebook 的 wav2vec-U 實(shí)現(xiàn)了無標(biāo)簽語音識(shí)別,備受關(guān)注。
此外,在處理語音時(shí)完全不依賴文本的“無文本NLP”方法在今年也得到了快速發(fā)展。典型的例子是 GSLM,它僅根據(jù)語音輸入生成語言。[6] 則提出了一種使用離散潛在代碼直接將語音轉(zhuǎn)換為語音的方法。這是一種非常具有前景的突破性技術(shù),因?yàn)?strong>世界上有很多語言并沒有書面形式。
這些用于語音的無監(jiān)督表達(dá)學(xué)習(xí)方法大部分已經(jīng)被 Facebook / Meta AI 開源了。這兩家公司也是當(dāng)前語言技術(shù)實(shí)力最強(qiáng)的機(jī)構(gòu)之一。
8. 語言模型繼續(xù)做大做深

震驚業(yè)界的 GPT-3 在 2020 年公布已經(jīng)有一段時(shí)間了,但巨型語言模型的研發(fā)在那之后依然在持續(xù)推進(jìn)。在 2021 年,GPT-3 已然不是“最新大規(guī)模語言模型”,而是各種更新模型的改進(jìn)“基線”。
比如今年早些時(shí)候,EleutherAI 發(fā)布了號(hào)稱“目前開源可用的最強(qiáng)語言模型” ?GPT-J-6B(60 億個(gè)參數(shù))。GPT-J-6B 采用 JAX / Haiku 實(shí)的。AI21 Labs(以色列的自然語言處理初創(chuàng)公司)也發(fā)布了巨型語言模型 Jurassic-1。雖然它與 GPT-3 規(guī)模幾乎相同(參數(shù)數(shù)量 178B),但它已加入了各種 trick 以提高性能。此外,12 月 DeepMind 發(fā)布了最新的 280B 參數(shù)的大規(guī)模語言模型 Gopher,證明其在各種自然語言理解任務(wù)中的表現(xiàn)優(yōu)于 GPT-3。
在當(dāng)今的語言模型研究中,不僅要加大規(guī)模,更注重加入巧思,研究如何用好大規(guī)模語言模型去解決目標(biāo)任務(wù)。比如,F(xiàn)LAN 模型用 prompt 調(diào)優(yōu)大規(guī)模語言模型,以提高模型在 zero-shot 場(chǎng)景下的泛化能力。其他旨在提高零樣本泛化能力的代表工作包括 T0 和 ExT5。這兩篇工作都結(jié)合了預(yù)訓(xùn)練學(xué)習(xí)和大規(guī)模多任務(wù)學(xué)習(xí)。
需要注意的是,其中語言模型是基于 seq2seq 結(jié)構(gòu)(如 T5),而不是僅僅有解碼器(如 GPT-3)。2021 年,T5、mT5 和可以直接處理字節(jié)序列的 ByT5 還發(fā)布了多語言的版本。這些模型的使用范圍也正在不斷擴(kuò)大。
9. 非參數(shù)方法

很長時(shí)間依賴,大規(guī)模語言模型將知識(shí)以模型參數(shù)的形式進(jìn)行存儲(chǔ)。雖然這些“參數(shù)化”模型可以擁有驚人的大量知識(shí)作為參數(shù)。它們?cè)?QA 等需要大量知識(shí)的任務(wù)中表現(xiàn)良好。缺點(diǎn)則是模型的大小必須成倍增加才能改進(jìn)。
從2020年左右開始,越來越多的研究開始將知識(shí)作為某種外部知識(shí),而不是作為模型參數(shù)來表達(dá),稱為“非參數(shù)”方法。這些模型也被稱為“基于搜索”的技術(shù),因?yàn)樗鼈冃枰?strong>通過搜索得到外部知識(shí)。
典型的方法包括基于鄰域搜索的語言模型(kNN-LM),基于鄰域搜索的機(jī)器翻譯(kNN-MT),以及使用搜索的語言生成。如 RAG ([7],見上圖)和 MARGE([8],2020 年)使用搜索 + 釋義進(jìn)行預(yù)訓(xùn)練學(xué)習(xí)。

近日,大型語言模型 RETRO [9]發(fā)布。該模型通過搜索技術(shù)改進(jìn)語言模型,基于一個(gè) 2 萬億 token 組成的數(shù)據(jù)庫進(jìn)行搜索,達(dá)到了近乎 GPT-3 的性能。這些模型的優(yōu)點(diǎn)是在不增加參數(shù)數(shù)量的情況下提高了語言模型的性能,并且可以在之后不斷添加或替換搜索數(shù)據(jù)庫。
10. “AI 大一統(tǒng)理論”
最后,讓我們談?wù)劷陙砣斯ぶ悄茏钪匾内厔?shì)——“AI 大統(tǒng)一理論”。2021年,人工智能領(lǐng)域在各種“大整合”。近日,特斯拉 AI 負(fù)責(zé)人 Andrew Karpathy 發(fā)布了一條推文稱“AI 空間的持續(xù)整合令人驚嘆”, 很好地代表了 AI 行業(yè)的當(dāng)前狀態(tài):

Andrew Karpathy 的 Twitter 全文:
當(dāng)我進(jìn)入 AI 行業(yè)時(shí),計(jì)算機(jī)視覺、語音、自然語言、強(qiáng)化學(xué)習(xí)等各個(gè)領(lǐng)域是完全分開的。那時(shí)候很難跨領(lǐng)域地閱讀論文。因?yàn)榉椒ㄍ耆煌?,有的方法通常甚至不是基于機(jī)器學(xué)習(xí)的。
在 2010 年代,所有這些領(lǐng)域都開始轉(zhuǎn)變,特別是機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面。模型架構(gòu)或許多種多樣,但論文都開始變得越來越相似,所有領(lǐng)域都在用大型數(shù)據(jù)集,并關(guān)注如何優(yōu)化神經(jīng)網(wǎng)絡(luò)。
而從大約兩年前開始,各個(gè)領(lǐng)域連神經(jīng)網(wǎng)絡(luò)架構(gòu)都開始變得雷同起來——一個(gè) Transformer 足矣(用 pytorch 版本的話,大約 200 行)。Transformer 作為一個(gè)強(qiáng)大的 baseline,你可以給它輸入單詞序列,或者或圖像 patch 序列,或演講語音序列。或者強(qiáng)化學(xué)習(xí)中的(state, action, reward)序列。任意其他標(biāo)記統(tǒng)統(tǒng)都可以放入這個(gè)簡單又靈活的模型框架。
在領(lǐng)域內(nèi)部,比如 CV 領(lǐng)域,過去在分類、分割、檢測(cè)、生成方面也存在一些差異,但所有這些也正在轉(zhuǎn)換為相同的框架?,F(xiàn)在方法上的區(qū)別都主要集中在:
數(shù)據(jù) 如何將你要解決的任務(wù)更好地映射到向量序列,以及如何從向量序列抽取輸入/輸出規(guī)范 位置編碼器的類型和任務(wù)定制化的注意力機(jī)制 因此,即使我是做 CV 的,也不得不開始關(guān)注其他領(lǐng)域,因?yàn)樗蓄I(lǐng)域 AI 的論文和想法都已變得息息相關(guān)。每個(gè)人都在使用基本相同的模型,因此大多數(shù)改進(jìn)和想法都可以快速在所有 AI 中快速“復(fù)制粘貼”。
正如已經(jīng)有不少人指出的那樣,大腦的新皮質(zhì)在其所有輸入模式中也具有高度統(tǒng)一的架構(gòu)。也許大自然偶然發(fā)現(xiàn)了一個(gè)非常相似的強(qiáng)大架構(gòu),并以類似的方式復(fù)制了它,只是改變了一些細(xì)節(jié)。AI 架構(gòu)上的這種整合,使我們將更多注意力放在了提升軟件、硬件和其他基礎(chǔ)設(shè)施上,從而進(jìn)一步加速了人工智能的進(jìn)步。Anyway,這是個(gè)激動(dòng)人心的時(shí)代。
即使基于 CNN 的各種強(qiáng)大模型已經(jīng)廣泛應(yīng)用于 CV 領(lǐng)域多年。近年來,圖像也開始被分割成 patch 喂進(jìn)了 Transformer。從 Vision Transformers 和 DeiT 開始,Transformer 的浪潮愈加洶涌。類似的想法開始通過 SST 傳播到語音領(lǐng)域。SST 將頻譜圖也拆分為 patch 來分析語音。
在自然語言處理領(lǐng)域,我們?nèi)绾蜗?GPT 一樣使用 Transformer 來生成和轉(zhuǎn)換新的圖像和聲音?答案很簡單:“將圖像和聲音等輸入轉(zhuǎn)換為離散標(biāo)記,并使用語言等轉(zhuǎn)換器對(duì)標(biāo)記序列進(jìn)行建模?!边@個(gè)框架沒有具體的名稱,但個(gè)人認(rèn)為會(huì)是近兩年左右深度學(xué)習(xí)行業(yè)最重要的趨勢(shì)。
對(duì)于這種到離散標(biāo)記序列的轉(zhuǎn)換,通常使用 VQ-VAE,一種將潛在表達(dá)式綁定到離散標(biāo)記的自解碼器 (autoencoder),或者 dVAE (也被稱為離散變分自編碼器)。這種機(jī)制廣泛應(yīng)用于圖像生成模型,如 VQGAN、DALL·E 、CogView 、NüWA,以及視頻生成模型 VideoGPT。在音樂領(lǐng)域,Jukebox 它結(jié)合了離散化和 transformer 直接從音頻生成音樂。
對(duì)輸入進(jìn)行離散標(biāo)記化,通過屏蔽一部分并從上下文中恢復(fù)它可以更容易地學(xué)習(xí)高質(zhì)量的表達(dá)式。例如自然語言處理領(lǐng)域流行的 BERT 掩碼語言模型。使用這種機(jī)制,已經(jīng)提出了用于視覺變換器的類 BERT 預(yù)訓(xùn)練模型 BEIT,以及用于視頻的類 BERT 模型 VIMPAC。
最后,Transformer 的浪潮不僅僅涉及語言、圖像和音頻等領(lǐng)域。TabTransformer和 NPT 使用了表格數(shù)據(jù)的自注意力機(jī)制。另外還有推薦系統(tǒng)領(lǐng)域的 Transformer4Rec,以及強(qiáng)化學(xué)習(xí)領(lǐng)域的 Decision Transformer。
目前,如果是一個(gè)可以序列化的任務(wù),并且可以獲得足夠的(初步的)學(xué)習(xí)數(shù)據(jù),Transformers for Everything 的趨勢(shì)很可能會(huì)繼續(xù)很長一段時(shí)間。Transformer 的霸權(quán)還要持續(xù)多久,我們拭目以待。?
[1] https://blog.kzakka.com/posts/clip/
[2] https://www.assemblyai.com/blog/pytorch-vs-tensorflow-in-2022/
[3] https://www.reddit.com/r/MachineLearning/comments/rga91a/d_are_you_using_pytorch_or_tensorflow_going_into/
[4] https://arxiv.org/abs/2103.14749
[5] https://arxiv.org/abs/2111.12124
[6] https://arxiv.org/abs/2107.05604
[7] https://arxiv.org/abs/2005.11401
[8] https://arxiv.org/abs/2006.15020
[9] https://arxiv.org/abs/2112.04426

