編 | 小軼，Yimin_飯煲??
來源?|?夕小瑤的賣萌屋

在本文中，我們將梳理近百篇的最新深度學(xué)習(xí)論文，以總結(jié)出“2021 年十大 AI 研究趨勢(shì)”。AI 領(lǐng)域的論文可謂層出不窮。這篇文章或許能幫助你跟蹤總體趨勢(shì)和重要研究。下文中提及的部分工作可能并不發(fā)表于 2021 年，但對(duì)于形成 2021 年的 AI 趨勢(shì)也起到了重要作用，因而也在本文中列出。

1. OpenAI CLIP

OpenAI今年年初發(fā)布的CLIP模型可以說是今年AI行業(yè)最重要的里程碑。 CLIP模型看起來似乎只是是隱藏在模型"DALL·E"背后的一個(gè)不顯眼的存在。不過在OpenAI的CLIP模型發(fā)布之初，我就認(rèn)為CLIP模型無論從上層應(yīng)用還是底層模型架構(gòu)來看都是一個(gè)非常重要的工作。正如我所預(yù)期的那樣，CLIP 的使用量快速增長。在 Kevin Zakka的博文[1]指出，"鑒于CLIP在該領(lǐng)域的影響力，很遺憾它與DALL·E 同時(shí)宣布"(也即DALL·E掩蓋了CLIP模型的風(fēng)頭)" "傳統(tǒng)的基于固定標(biāo)簽類別的視覺監(jiān)督學(xué)習(xí)已死", 還有一些博文稱“OpenAI的CLIP是今年計(jì)算機(jī)視覺最重要的發(fā)展”。

CLIP的機(jī)制非常簡單。使用可以從網(wǎng)絡(luò)上大量獲取的大量圖像以及與之相關(guān)的文本來預(yù)訓(xùn)練CLIP模型中相應(yīng)的圖像和文本編碼器。如果文本和圖像內(nèi)容匹配，模型將給出高相似度，否則將給出低相似度。

為什么CLIP模型這么有用？ 首先，考慮從圖片到文字的方向，可以通過輸入圖片從多個(gè)選項(xiàng)中選擇最匹配圖片的文字對(duì)圖片進(jìn)行分類。傳統(tǒng)的圖像分類一般是在多分類框架中解決，從一個(gè)固定的類中選擇一個(gè)正確的答案，但是使用CLIP，圖像使用未定義范圍的自然語言文本進(jìn)行分類。通過將標(biāo)簽轉(zhuǎn)化為自然語言文本，可以無需使用特定下游任務(wù)的數(shù)據(jù)對(duì)CLIP進(jìn)行微調(diào)就進(jìn)行分類，因此可以實(shí)現(xiàn)“零樣本學(xué)習(xí)”。

相反，考慮到從文本到圖像的方向，如果輸入某個(gè)文本，對(duì)圖像進(jìn)行優(yōu)化，使其與文本的相似度變大，就可以用自然語言生成圖像。準(zhǔn)確地說，它通過優(yōu)化其潛在表示并結(jié)合使用大量圖像預(yù)訓(xùn)練的圖像生成模型來生成圖像，例如 VQGAN。VQGAN + CLIP的這種組合在今年年中成為網(wǎng)絡(luò)上的一大話題，因?yàn)樗梢暂p松生成高質(zhì)量的圖像。近來，一種結(jié)合擴(kuò)散模型（詳細(xì)信息將在后面描述）和CLIP的“CLIP引導(dǎo)擴(kuò)散模型(CLIP Guided Diffusion Models）”也成為了熱門話題。

除了圖像分類和圖像生成任務(wù)之外，CLIP模型作為“通用圖像理解引擎”的各種用途正在擴(kuò)展。在前面提到的Kevin Zakka博文中，在視覺領(lǐng)域，通過實(shí)際例子介紹了利用CLIP模型解決reCAPTCHA、目標(biāo)檢測(cè)、顯著圖可視化等各種任務(wù)中的應(yīng)用。此外，在一篇題為“How Much Can CLIP Benefit Vision-and-Language Tasks?”的論文中，CLIP可以用于VQA、Image Captioning和視覺語言導(dǎo)航(Vision-Language Navigation)之類的任務(wù)，并且已達(dá)到與強(qiáng)大Baseline相當(dāng)或超過的性能。CLIPScore實(shí)現(xiàn)了無參考文本的Image Captioning生成性能評(píng)估。CLIP模型也可以被用于基于NeRF的場(chǎng)景生成、物理AI、機(jī)器人技術(shù)。

最近，AudioCLIP和Wav2CLIP擴(kuò)展了 CLIP 以學(xué)習(xí)音頻、圖像和文本三種模態(tài)之間的關(guān)系。許多工作提出了CLIP模型的擴(kuò)展和改進(jìn)，例如 Lite和SLIP。

2. 自監(jiān)督學(xué)習(xí)/對(duì)比學(xué)習(xí)

自監(jiān)督學(xué)習(xí)是一種通過從數(shù)據(jù)本身創(chuàng)建偽監(jiān)督信號(hào)來學(xué)習(xí)機(jī)器學(xué)習(xí)模型的方法。目前最流行的自監(jiān)督學(xué)習(xí)方法是BERT中著名的掩碼語言模型（MLM）。MLM被廣泛應(yīng)用于各種預(yù)訓(xùn)練方法之中。自監(jiān)督學(xué)習(xí)中一個(gè)重要的分支是對(duì)比學(xué)習(xí)，它使用數(shù)據(jù)之間的“相似/不相似”關(guān)系作為訓(xùn)練時(shí)的監(jiān)督信號(hào)。它的簡單性和強(qiáng)大的表示學(xué)習(xí)能力使其在過去幾年中廣泛應(yīng)用于各種人工智能任務(wù)。

對(duì)比學(xué)習(xí)并不是什么新鮮的概念。多年之前，在自然語言處理領(lǐng)域流行的Word2Vec和Quick Thoughts中已經(jīng)使用了類似的技術(shù)。

近年來在NLP領(lǐng)域中，ELECTRA通過檢測(cè)自然語言文本中的替換詞進(jìn)行自監(jiān)督學(xué)習(xí)，CLEAR通過數(shù)據(jù)擴(kuò)展和對(duì)比學(xué)習(xí)獲得高質(zhì)量的句子表示，DeCLUTR使用從文檔中采樣的文本片段訓(xùn)練高質(zhì)量的句子表示，SimCSE則是一種只需要兩個(gè)輸入到編碼器的簡單有效的句子表示方法。

在計(jì)算機(jī)視覺領(lǐng)域，從大量標(biāo)記圖像(例如ImageNet)中進(jìn)行有監(jiān)督的預(yù)訓(xùn)練已經(jīng)很普遍。然而，在過去幾年中，自監(jiān)督學(xué)習(xí)和對(duì)比學(xué)習(xí)技術(shù)變得非常流行。最典型的是 SimCLR 和 SimCLRv2，它們通過將不同的數(shù)據(jù)擴(kuò)展應(yīng)用于單個(gè)圖像來進(jìn)行表示學(xué)習(xí)。此外，MoCo使用動(dòng)量編碼器進(jìn)行對(duì)比學(xué)習(xí)，BYOL通過一種從頭開始創(chuàng)建隱表示的自監(jiān)督學(xué)習(xí)方法及無標(biāo)簽的知識(shí)蒸餾提升性能。還有許多其他方法被提出，例如DINO和SimSiam。上面介紹的CLIP也是基于對(duì)比學(xué)習(xí)訓(xùn)練的。

最近，MAE和SimMIM這兩種使用與掩碼語言模型類似的思想進(jìn)行計(jì)算機(jī)視覺的自監(jiān)督學(xué)習(xí)方法也成為熱門話題。

3. 多層感知器 (MLP) 的復(fù)興

2021 年也是多層感知器 (MLP) 蓬勃發(fā)展的一年。 雖然它是一個(gè)簡單的模型，可以稱為僅使用線性層和激活函數(shù)的“原始神經(jīng)網(wǎng)絡(luò)”，但當(dāng)它通過具有復(fù)雜架構(gòu)的現(xiàn)代方法進(jìn)行訓(xùn)練時(shí)，它已經(jīng)顯示出驚人的強(qiáng)大性能。

在圖像分類中，無需使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和 Transformer 中廣泛使用的注意力機(jī)制，只需將圖像Patch和MLP相結(jié)合即可實(shí)現(xiàn)高性能和高速度的圖像分類器。 2021年有大量基于MLP的模型出現(xiàn)，包括Mixer, gMLP還有Meta AI提出的ResMLP和RepMLP。

截止到2021年12月，盡管研究者們因?yàn)?MLP或許將成為超越Transformer的模型"而激動(dòng)不已，但MLP還沒有通過替換Transformer而普及。在最近發(fā)表的MLP綜述論文"Are you ready for a new paradigm shift?"中指出，在目前的訓(xùn)練規(guī)模上，歸納偏置(Inductive bias)仍然有存在的必要，也即根據(jù)任務(wù)和數(shù)據(jù)設(shè)計(jì)模型結(jié)構(gòu)仍然能在絕大多數(shù)情況下取得更好的效果。此外，MLP還有一個(gè)未解決的問題，就是其性能嚴(yán)重依賴于輸入分辨率。

4. 第三個(gè)深度學(xué)習(xí)庫 JAX

JAX是一個(gè)似乎同時(shí)具備Pytorch和Tensorflow優(yōu)勢(shì)的深度學(xué)習(xí)框架。 JAX 是 Google Research 開發(fā)的機(jī)器學(xué)習(xí)庫，被稱為“在 GPU/TPU上運(yùn)行的具有自動(dòng)微分功能的Numpy”，該庫的核心是類似 Numpy 的向量和矩陣運(yùn)算。我個(gè)人認(rèn)為，與Numpy和PyTorch/TensorFlow最大的不同在于JAX是“（純）面向函數(shù)的”，對(duì)于自動(dòng)微分和誤差反向傳播的處理方式有著根本的不同。

如果你在“PyTorch vs TensorFlow in 2022”這篇博客文章[2]中閱讀了Hacker News的評(píng)論部分，以及標(biāo)題為“2022 Are you a PyTorch sect? TensorFlow sect?”的 Reddit 帖子[3]中的許多評(píng)論，諸如“人們開始轉(zhuǎn)向JAX”、“使用 JAX”和“JAX 正在取代 TensorFlow”這樣的評(píng)論表明它甚至在社區(qū)基礎(chǔ)上也逐漸流行起來。

2021 年，DeepMind 發(fā)表的許多優(yōu)秀研究在其實(shí)現(xiàn)中使用 JAX 和基于 JAX 的神經(jīng)網(wǎng)絡(luò)庫Haiku。視覺Transformer和MLP-Mixer的實(shí)現(xiàn)中也使用了基于JAX的深度學(xué)習(xí)庫Flax。最近，谷歌發(fā)布了一個(gè)基于JAX的計(jì)算機(jī)視覺庫SCENIC，它利用視覺Transformer以統(tǒng)一的方式解決圖像、視頻和音頻任務(wù)。

在自然語言處理（NLP）領(lǐng)域，F(xiàn)lax 已經(jīng)正式被用于NLP的流行框架 HuggingFace Transformers 和目前開源最強(qiáng)的語言模型GPT-J。我經(jīng)常使用Haiku(一個(gè)基于JAX的神經(jīng)網(wǎng)絡(luò)庫)，并使用JAX的并行化機(jī)制xmap進(jìn)行模型并行化。今年6月發(fā)布的Cloud TPU VM也有助于使 TPU 更易于使用。總之，我們期待著“2022年是JAX年”的未來發(fā)展。

5. 擴(kuò)散模型

“擴(kuò)散模型”通過逐漸向數(shù)據(jù)中添加噪聲并學(xué)習(xí)相反的去噪過程來生成圖像和語言。 “Beyond GAN in image generation”、“Likelihood-based SOTA”、“Applicable to language generation”等非常劃時(shí)代的方法和論文陸續(xù)公布。擴(kuò)散模型可以被稱為是2021年最大趨勢(shì)的其中之一。

2019-2020年，擴(kuò)散模型的基礎(chǔ)研究開始活躍起來。首先是基于使用分?jǐn)?shù)的“分?jǐn)?shù)匹配”的生成模型以及使用擴(kuò)散概率模型的高質(zhì)量圖像生成方法. 從Denoising Diffusion Probabilistic Models開始，對(duì)擴(kuò)散模型的在圖像生成領(lǐng)域的研究開始變得活躍。

另一方面，與其他基于似然性的方法（如自回歸模型）相比，擴(kuò)散模型存在無法獲得更好似然性的問題。2021年，研究者們改進(jìn)了OpenAI的擴(kuò)散模型Improved Denoising Diffusion Probabilistic Models和The diffusion model exceeded GAN in image generation來解決這個(gè)問題。他們的論文Diffusion Models Beat GANs on Image Synthesis發(fā)表并成為一個(gè)熱門話題。此外，擴(kuò)散模型也被應(yīng)用于其他模態(tài)，包括D3PM應(yīng)用于文本生成，DiffWave和WaveGrad應(yīng)用于語音生成等。

最后，最近出現(xiàn)了“CLIP引導(dǎo)的擴(kuò)散模型（CLIP guided diffusion model)”，它將擴(kuò)散模型應(yīng)用于從文本生成圖像，類似于上述使用 VQGAN+CLIP的圖像生成。

6. 以數(shù)據(jù)為中心的人工智能

早些年，有一種以數(shù)據(jù)為中心的“數(shù)據(jù)編程”技術(shù)。當(dāng)年基于該技術(shù)起家的創(chuàng)業(yè)公司 Snorkel.ai，目前已市場(chǎng)估值超過百億，加入獨(dú)角獸行列。

而今年，“以數(shù)據(jù)為中心的人工智能”再度成為 AI 新趨勢(shì)，又大火了一把。其背后的推動(dòng)力是 DeepLearning.ai / Landing.ai 的領(lǐng)導(dǎo)者 Andrew Ng 在今年 3 月發(fā)布的名為 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI 的演講。在研討會(huì)上，他倡導(dǎo)“以數(shù)據(jù)為中心的 AI”作為一個(gè)清晰的概念，引發(fā)學(xué)術(shù)界的廣泛認(rèn)同和討論。Andrew 介紹了他當(dāng)時(shí)負(fù)責(zé)的一個(gè)項(xiàng)目。該項(xiàng)目旨在開發(fā)一個(gè)用 CV 技術(shù)檢測(cè)產(chǎn)品缺陷的系統(tǒng)。經(jīng)過兩周的開發(fā)期，他們發(fā)現(xiàn)通過改進(jìn)模型并沒有帶來明顯準(zhǔn)確率的提升，而改進(jìn)數(shù)據(jù)卻帶來了 16.9% 的性能提升。

之后，Andrew 又領(lǐng)導(dǎo) Landing.ai / DeepLearning.ai 舉辦了一場(chǎng)以數(shù)據(jù)為中心的人工智能競賽。與 Kaggle 等傳統(tǒng) AI 競賽截然，這場(chǎng)比賽并不是下載標(biāo)準(zhǔn)數(shù)據(jù)集，然后改進(jìn)模型端，而是通過改進(jìn)數(shù)據(jù)端以提高結(jié)果。今年晚些時(shí)候，還與 NeurIPS 2021 國際會(huì)議一起舉辦了以數(shù)據(jù)為中心的 AI 研討會(huì)。一篇論文[4]也談到了“那些自稱基準(zhǔn)數(shù)據(jù)集的 benchmark 也充斥著各種數(shù)據(jù)錯(cuò)誤”。

“數(shù)據(jù)對(duì)人工智能很重要”，這一點(diǎn)或許不用多說。很多人在將 AI 應(yīng)用于現(xiàn)實(shí)世界的問題時(shí)，通過權(quán)衡“數(shù)據(jù)改進(jìn)”和“模型改進(jìn)”，或多或少都意識(shí)到數(shù)據(jù)改進(jìn)具有很大的效益。但是，能在今年推出“以數(shù)據(jù)為中心的人工智能”的這一明確概念進(jìn)行傳播，并得到學(xué)術(shù)界廣泛認(rèn)可，依然是一個(gè)巨大的進(jìn)步。

7. 語音無監(jiān)督表示學(xué)習(xí)

2021 年，也是語音（語音、音頻、音樂）技術(shù)取得重大突破的一年。

自 2020 年以來，語音的自監(jiān)督學(xué)習(xí)得到了積極的研究，并應(yīng)用于各種任務(wù)，例如 wav2vec 2.0。與文本和圖像一樣，通過收集大量未注釋的數(shù)據(jù)并進(jìn)行預(yù)訓(xùn)練學(xué)習(xí)，顯著提高了在語音識(shí)別等各類語音任務(wù)上的性能。即使在 2021 年，自監(jiān)督的研究勢(shì)頭也依然持續(xù)。SSAST 通過 mask 語音塊來預(yù)訓(xùn)練學(xué)習(xí)高質(zhì)量的語音表示。近日，[5] 則提出了一種用于學(xué)習(xí)語音、環(huán)境聲音和音樂的通用語音表達(dá)的方法。

隨著語音的表示學(xué)習(xí)方法變得越來越強(qiáng)大，今年各個(gè)語音任務(wù)上都有不小的突破。今年年中，F(xiàn)acebook 的 wav2vec-U 實(shí)現(xiàn)了無標(biāo)簽語音識(shí)別，備受關(guān)注。

此外，在處理語音時(shí)完全不依賴文本的“無文本NLP”方法在今年也得到了快速發(fā)展。典型的例子是 GSLM，它僅根據(jù)語音輸入生成語言。[6] 則提出了一種使用離散潛在代碼直接將語音轉(zhuǎn)換為語音的方法。這是一種非常具有前景的突破性技術(shù)，因?yàn)?strong>世界上有很多語言并沒有書面形式。

這些用于語音的無監(jiān)督表達(dá)學(xué)習(xí)方法大部分已經(jīng)被 Facebook / Meta AI 開源了。這兩家公司也是當(dāng)前語言技術(shù)實(shí)力最強(qiáng)的機(jī)構(gòu)之一。

8. 語言模型繼續(xù)做大做深

震驚業(yè)界的 GPT-3 在 2020 年公布已經(jīng)有一段時(shí)間了，但巨型語言模型的研發(fā)在那之后依然在持續(xù)推進(jìn)。在 2021 年，GPT-3 已然不是“最新大規(guī)模語言模型”，而是各種更新模型的改進(jìn)“基線”。

比如今年早些時(shí)候，EleutherAI 發(fā)布了號(hào)稱“目前開源可用的最強(qiáng)語言模型” ?GPT-J-6B（60 億個(gè)參數(shù)）。GPT-J-6B 采用 JAX / Haiku 實(shí)的。AI21 Labs（以色列的自然語言處理初創(chuàng)公司）也發(fā)布了巨型語言模型 Jurassic-1。雖然它與 GPT-3 規(guī)模幾乎相同（參數(shù)數(shù)量 178B），但它已加入了各種 trick 以提高性能。此外，12 月 DeepMind 發(fā)布了最新的 280B 參數(shù)的大規(guī)模語言模型 Gopher，證明其在各種自然語言理解任務(wù)中的表現(xiàn)優(yōu)于 GPT-3。

在當(dāng)今的語言模型研究中，不僅要加大規(guī)模，更注重加入巧思，研究如何用好大規(guī)模語言模型去解決目標(biāo)任務(wù)。比如，F(xiàn)LAN 模型用 prompt 調(diào)優(yōu)大規(guī)模語言模型，以提高模型在 zero-shot 場(chǎng)景下的泛化能力。其他旨在提高零樣本泛化能力的代表工作包括 T0 和 ExT5。這兩篇工作都結(jié)合了預(yù)訓(xùn)練學(xué)習(xí)和大規(guī)模多任務(wù)學(xué)習(xí)。

需要注意的是，其中語言模型是基于 seq2seq 結(jié)構(gòu)（如 T5），而不是僅僅有解碼器（如 GPT-3）。2021 年，T5、mT5 和可以直接處理字節(jié)序列的 ByT5 還發(fā)布了多語言的版本。這些模型的使用范圍也正在不斷擴(kuò)大。

9. 非參數(shù)方法

很長時(shí)間依賴，大規(guī)模語言模型將知識(shí)以模型參數(shù)的形式進(jìn)行存儲(chǔ)。雖然這些“參數(shù)化”模型可以擁有驚人的大量知識(shí)作為參數(shù)。它們?cè)?QA 等需要大量知識(shí)的任務(wù)中表現(xiàn)良好。缺點(diǎn)則是模型的大小必須成倍增加才能改進(jìn)。

從2020年左右開始，越來越多的研究開始將知識(shí)作為某種外部知識(shí)，而不是作為模型參數(shù)來表達(dá)，稱為“非參數(shù)”方法。這些模型也被稱為“基于搜索”的技術(shù)，因?yàn)樗鼈冃枰?strong>通過搜索得到外部知識(shí)。

典型的方法包括基于鄰域搜索的語言模型（kNN-LM），基于鄰域搜索的機(jī)器翻譯（kNN-MT），以及使用搜索的語言生成。如 RAG （[7]，見上圖）和 MARGE（[8]，2020 年）使用搜索 + 釋義進(jìn)行預(yù)訓(xùn)練學(xué)習(xí)。

近日，大型語言模型 RETRO [9]發(fā)布。該模型通過搜索技術(shù)改進(jìn)語言模型，基于一個(gè) 2 萬億 token 組成的數(shù)據(jù)庫進(jìn)行搜索，達(dá)到了近乎 GPT-3 的性能。這些模型的優(yōu)點(diǎn)是在不增加參數(shù)數(shù)量的情況下提高了語言模型的性能，并且可以在之后不斷添加或替換搜索數(shù)據(jù)庫。

10. “AI 大一統(tǒng)理論”

最后，讓我們談?wù)劷陙砣斯ぶ悄茏钪匾内厔?shì)——“AI 大統(tǒng)一理論”。2021年，人工智能領(lǐng)域在各種“大整合”。近日，特斯拉 AI 負(fù)責(zé)人 Andrew Karpathy 發(fā)布了一條推文稱“AI 空間的持續(xù)整合令人驚嘆”，很好地代表了 AI 行業(yè)的當(dāng)前狀態(tài)：

Andrew Karpathy 的 Twitter 全文：
當(dāng)我進(jìn)入 AI 行業(yè)時(shí)，計(jì)算機(jī)視覺、語音、自然語言、強(qiáng)化學(xué)習(xí)等各個(gè)領(lǐng)域是完全分開的。那時(shí)候很難跨領(lǐng)域地閱讀論文。因?yàn)榉椒ㄍ耆煌?，有的方法通常甚至不是基于機(jī)器學(xué)習(xí)的。
在 2010 年代，所有這些領(lǐng)域都開始轉(zhuǎn)變，特別是機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面。模型架構(gòu)或許多種多樣，但論文都開始變得越來越相似，所有領(lǐng)域都在用大型數(shù)據(jù)集，并關(guān)注如何優(yōu)化神經(jīng)網(wǎng)絡(luò)。
而從大約兩年前開始，各個(gè)領(lǐng)域連神經(jīng)網(wǎng)絡(luò)架構(gòu)都開始變得雷同起來——一個(gè) Transformer 足矣（用 pytorch 版本的話，大約 200 行）。Transformer 作為一個(gè)強(qiáng)大的 baseline，你可以給它輸入單詞序列，或者或圖像 patch 序列，或演講語音序列。或者強(qiáng)化學(xué)習(xí)中的（state, action, reward）序列。任意其他標(biāo)記統(tǒng)統(tǒng)都可以放入這個(gè)簡單又靈活的模型框架。
在領(lǐng)域內(nèi)部，比如 CV 領(lǐng)域，過去在分類、分割、檢測(cè)、生成方面也存在一些差異，但所有這些也正在轉(zhuǎn)換為相同的框架?，F(xiàn)在方法上的區(qū)別都主要集中在：
數(shù)據(jù)
如何將你要解決的任務(wù)更好地映射到向量序列，以及如何從向量序列抽取輸入/輸出規(guī)范
位置編碼器的類型和任務(wù)定制化的注意力機(jī)制
因此，即使我是做 CV 的，也不得不開始關(guān)注其他領(lǐng)域，因?yàn)樗蓄I(lǐng)域 AI 的論文和想法都已變得息息相關(guān)。每個(gè)人都在使用基本相同的模型，因此大多數(shù)改進(jìn)和想法都可以快速在所有 AI 中快速“復(fù)制粘貼”。
正如已經(jīng)有不少人指出的那樣，大腦的新皮質(zhì)在其所有輸入模式中也具有高度統(tǒng)一的架構(gòu)。也許大自然偶然發(fā)現(xiàn)了一個(gè)非常相似的強(qiáng)大架構(gòu)，并以類似的方式復(fù)制了它，只是改變了一些細(xì)節(jié)。AI 架構(gòu)上的這種整合，使我們將更多注意力放在了提升軟件、硬件和其他基礎(chǔ)設(shè)施上，從而進(jìn)一步加速了人工智能的進(jìn)步。Anyway，這是個(gè)激動(dòng)人心的時(shí)代。

即使基于 CNN 的各種強(qiáng)大模型已經(jīng)廣泛應(yīng)用于 CV 領(lǐng)域多年。近年來，圖像也開始被分割成 patch 喂進(jìn)了 Transformer。從 Vision Transformers 和 DeiT 開始，Transformer 的浪潮愈加洶涌。類似的想法開始通過 SST 傳播到語音領(lǐng)域。SST 將頻譜圖也拆分為 patch 來分析語音。

在自然語言處理領(lǐng)域，我們?nèi)绾蜗?GPT 一樣使用 Transformer 來生成和轉(zhuǎn)換新的圖像和聲音？答案很簡單：“將圖像和聲音等輸入轉(zhuǎn)換為離散標(biāo)記，并使用語言等轉(zhuǎn)換器對(duì)標(biāo)記序列進(jìn)行建模?！边@個(gè)框架沒有具體的名稱，但個(gè)人認(rèn)為會(huì)是近兩年左右深度學(xué)習(xí)行業(yè)最重要的趨勢(shì)。

對(duì)于這種到離散標(biāo)記序列的轉(zhuǎn)換，通常使用 VQ-VAE，一種將潛在表達(dá)式綁定到離散標(biāo)記的自解碼器 (autoencoder)，或者 dVAE （也被稱為離散變分自編碼器）。這種機(jī)制廣泛應(yīng)用于圖像生成模型，如 VQGAN、DALL·E 、CogView 、NüWA,以及視頻生成模型 VideoGPT。在音樂領(lǐng)域，Jukebox 它結(jié)合了離散化和 transformer 直接從音頻生成音樂。

對(duì)輸入進(jìn)行離散標(biāo)記化，通過屏蔽一部分并從上下文中恢復(fù)它可以更容易地學(xué)習(xí)高質(zhì)量的表達(dá)式。例如自然語言處理領(lǐng)域流行的 BERT 掩碼語言模型。使用這種機(jī)制，已經(jīng)提出了用于視覺變換器的類 BERT 預(yù)訓(xùn)練模型 BEIT，以及用于視頻的類 BERT 模型 VIMPAC。

最后，Transformer 的浪潮不僅僅涉及語言、圖像和音頻等領(lǐng)域。TabTransformer和 NPT 使用了表格數(shù)據(jù)的自注意力機(jī)制。另外還有推薦系統(tǒng)領(lǐng)域的 Transformer4Rec，以及強(qiáng)化學(xué)習(xí)領(lǐng)域的 Decision Transformer。

目前，如果是一個(gè)可以序列化的任務(wù)，并且可以獲得足夠的（初步的）學(xué)習(xí)數(shù)據(jù)，Transformers for Everything 的趨勢(shì)很可能會(huì)繼續(xù)很長一段時(shí)間。Transformer 的霸權(quán)還要持續(xù)多久，我們拭目以待。?

[1] https://blog.kzakka.com/posts/clip/
[2] https://www.assemblyai.com/blog/pytorch-vs-tensorflow-in-2022/
[3] https://www.reddit.com/r/MachineLearning/comments/rga91a/d_are_you_using_pytorch_or_tensorflow_going_into/
[4] https://arxiv.org/abs/2103.14749
[5] https://arxiv.org/abs/2111.12124
[6] https://arxiv.org/abs/2107.05604
[7] https://arxiv.org/abs/2005.11401
[8] https://arxiv.org/abs/2006.15020
[9] https://arxiv.org/abs/2112.04426

年末回顧：2021年 AI 領(lǐng)域十大研究趨勢(shì)及必讀論文

1. OpenAI CLIP

2. 自監(jiān)督學(xué)習(xí)/對(duì)比學(xué)習(xí)

3. 多層感知器 (MLP) 的復(fù)興

4. 第三個(gè)深度學(xué)習(xí)庫 JAX

5. 擴(kuò)散模型

6. 以數(shù)據(jù)為中心的人工智能

7. 語音無監(jiān)督表示學(xué)習(xí)

8. 語言模型繼續(xù)做大做深

9. 非參數(shù)方法

10. “AI 大一統(tǒng)理論”

[1] https://blog.kzakka.com/posts/clip/

[2] https://www.assemblyai.com/blog/pytorch-vs-tensorflow-in-2022/

[3] https://www.reddit.com/r/MachineLearning/comments/rga91a/d_are_you_using_pytorch_or_tensorflow_going_into/

[4] https://arxiv.org/abs/2103.14749

[5] https://arxiv.org/abs/2111.12124

[6] https://arxiv.org/abs/2107.05604

[7] https://arxiv.org/abs/2005.11401

[8] https://arxiv.org/abs/2006.15020

[9] https://arxiv.org/abs/2112.04426