Google最新《高效Transformers》2022綜述大全,39頁(yè)pdf闡述九大類提升Transformers效率方式

??新智元報(bào)道??

??新智元報(bào)道??
來(lái)源:專知
【新智元導(dǎo)讀】最近Google的Yi Tay發(fā)布了關(guān)于Transformers最新論文,提供這類模型的最新進(jìn)展的全面概述。
Transformer模型是當(dāng)下的研究焦點(diǎn),因?yàn)樗鼈冊(cè)谡Z(yǔ)言、視覺(jué)和強(qiáng)化學(xué)習(xí)等領(lǐng)域的有效性。例如,在自然語(yǔ)言處理領(lǐng)域,Transformer已經(jīng)成為現(xiàn)代深度學(xué)習(xí)堆棧中不可缺少的主要部分。
最近,提出的令人眼花繚亂的X-former模型Linformer, Performer, ?Longformer等這些都改進(jìn)了原始Transformer架構(gòu)的X-former模型,其中許多改進(jìn)了計(jì)算和內(nèi)存效率。
為了幫助熱心的研究人員在這一混亂中給予指導(dǎo),本文描述了大量經(jīng)過(guò)深思熟慮的最新高效X-former模型的選擇,提供了一個(gè)跨多個(gè)領(lǐng)域的現(xiàn)有工作和模型的有組織和全面的概述。
論文鏈接:https://arxiv.org/abs/2009.06732
介紹
Transformer是現(xiàn)代深度學(xué)習(xí)領(lǐng)域中一股強(qiáng)大的力量。Transformer無(wú)處不在,在語(yǔ)言理解、圖像處理等許多領(lǐng)域都產(chǎn)生了巨大的影響。因此,在過(guò)去的幾年里,大量的研究致力于對(duì)該模型進(jìn)行根本性的改進(jìn),這是很自然的。這種巨大的興趣也刺激了對(duì)該模式更高效變體的研究。

最近出現(xiàn)了大量的Transformer模型變體,研究人員和實(shí)踐者可能會(huì)發(fā)現(xiàn)跟上創(chuàng)新的速度很有挑戰(zhàn)性。在撰寫本文時(shí),僅在過(guò)去6個(gè)月里就提出了近12種新的以效率為中心的模式。因此,對(duì)現(xiàn)有文獻(xiàn)進(jìn)行綜述,既有利于社區(qū),又十分及時(shí)。
自注意力機(jī)制是確定Transformer模型的一個(gè)關(guān)鍵特性。該機(jī)制可以看作是一種類似圖的歸納偏差,它通過(guò)基于關(guān)聯(lián)的池化操作將序列中的所有標(biāo)記連接起來(lái)。一個(gè)眾所周知的自注意力問(wèn)題是二次時(shí)間和記憶復(fù)雜性,這可能阻礙模型在許多設(shè)置的可伸縮性。最近,為了解決這個(gè)問(wèn)題,出現(xiàn)了大量的模型變體。以下我們將這類型號(hào)命名為「高效Transformers」。
根據(jù)上下文,可以對(duì)模型的效率進(jìn)行不同的解釋。它可能指的是模型的內(nèi)存占用情況,當(dāng)模型運(yùn)行的加速器的內(nèi)存有限時(shí),這一點(diǎn)非常重要。效率也可能指計(jì)算成本,例如,在訓(xùn)練和推理期間的失敗次數(shù)。特別是對(duì)于設(shè)備上的應(yīng)用,模型應(yīng)該能夠在有限的計(jì)算預(yù)算下運(yùn)行。在這篇綜述中,我們提到了Transformer在內(nèi)存和計(jì)算方面的效率,當(dāng)它們被用于建模大型輸入時(shí)。
有效的自注意力模型在建模長(zhǎng)序列的應(yīng)用中是至關(guān)重要的。例如,文檔、圖像和視頻通常都由相對(duì)大量的像素或標(biāo)記組成。因此,處理長(zhǎng)序列的效率對(duì)于Transformer的廣泛采用至關(guān)重要。
本篇綜述旨在提供這類模型的最新進(jìn)展的全面概述。我們主要關(guān)注的是通過(guò)解決自注意力機(jī)制的二次復(fù)雜性問(wèn)題來(lái)提高Transformer效率的建模進(jìn)展和架構(gòu)創(chuàng)新,我們還將在后面的章節(jié)簡(jiǎn)要討論一般改進(jìn)和其他效率改進(jìn)。

本文提出了一種高效Transformer模型的分類方法,并通過(guò)技術(shù)創(chuàng)新和主要用例對(duì)其進(jìn)行了表征。特別地,我們回顧了在語(yǔ)言和視覺(jué)領(lǐng)域都有應(yīng)用的Transformer模型,試圖對(duì)各個(gè)領(lǐng)域的文獻(xiàn)進(jìn)行分析。我們還提供了許多這些模型的詳細(xì)介紹,并繪制了它們之間的聯(lián)系。

本節(jié)概述了高效Transformer模型的一般分類,以其核心技術(shù)和主要用例為特征。盡管這些模型的主要目標(biāo)是提高自注意機(jī)制的內(nèi)存復(fù)雜度,但我們還包括了提高Transformer體系結(jié)構(gòu)的一般效率的方法。
固定模式(FP)——對(duì)自注意最早的修改是通過(guò)將視野限制在固定的、預(yù)定義的模式(如局部窗口和固定步距的塊模式)來(lái)簡(jiǎn)化注意力矩陣。
組合模式(CP)——組合方法的關(guān)鍵思想是通過(guò)組合兩個(gè)或多個(gè)不同的訪問(wèn)模式來(lái)提高覆蓋率。例如,Sparse Transformer通過(guò)將一半的頭部分配給每個(gè)模式,將跨步注意力和局部注意力結(jié)合起來(lái)。類似地,軸向Transformer運(yùn)用了一系列以高維張量作為輸入的自注意計(jì)算,每個(gè)計(jì)算都沿著輸入張量的單個(gè)軸。從本質(zhì)上說(shuō),模式的組合以與固定模式相同的方式降低了內(nèi)存復(fù)雜度。但是,不同之處在于,多個(gè)模式的聚合和組合提高了自注意機(jī)制的整體覆蓋率。
可學(xué)習(xí)的模式(LP)?-固定的,預(yù)先確定的模式的擴(kuò)展是可學(xué)習(xí)的模式。不出所料,使用可學(xué)習(xí)模式的模型旨在以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)訪問(wèn)模式。學(xué)習(xí)模式的一個(gè)關(guān)鍵特征是確定令牌相關(guān)性的概念,然后將令牌分配到桶或集群。值得注意的是,Reformer 引入了一種基于哈希的相似性度量,以有效地將令牌聚為塊。類似地,路由Transformer對(duì)令牌使用在線k-means聚類。同時(shí),Sinkhorn排序網(wǎng)絡(luò)通過(guò)學(xué)習(xí)對(duì)輸入序列的塊進(jìn)行排序,暴露了注意權(quán)值的稀疏性。在所有這些模型中,相似函數(shù)與網(wǎng)絡(luò)的其他部分一起端到端訓(xùn)練??蓪W(xué)習(xí)模式的關(guān)鍵思想仍然是利用固定模式(塊狀模式)。然而,這類方法學(xué)會(huì)了對(duì)輸入標(biāo)記進(jìn)行排序/聚類——在保持固定模式方法的效率優(yōu)勢(shì)的同時(shí),實(shí)現(xiàn)了序列的更優(yōu)全局視圖。
神經(jīng)記憶——另一個(gè)突出的方法是利用可學(xué)習(xí)的側(cè)記憶模塊,它可以一次訪問(wèn)多個(gè)令牌。一種常見(jiàn)的形式是全局神經(jīng)存儲(chǔ)器,它能夠訪問(wèn)整個(gè)序列。全局標(biāo)記充當(dāng)一種模型內(nèi)存的形式,它學(xué)習(xí)從輸入序列標(biāo)記中收集數(shù)據(jù)。這是在Set transformer中首次引入的誘導(dǎo)點(diǎn)方法。這些參數(shù)通常被解釋為「內(nèi)存」,用作將來(lái)處理的臨時(shí)上下文的一種形式。這可以被認(rèn)為是參數(shù)關(guān)注的一種形式。ETC 和Longformer也使用了全局記憶令牌。在有限的神經(jīng)記憶(或誘導(dǎo)點(diǎn))中,我們能夠?qū)斎胄蛄袌?zhí)行一個(gè)初步的類似于池的操作來(lái)壓縮輸入序列——在設(shè)計(jì)高效的自注意模塊時(shí),這是一個(gè)可以隨意使用的巧妙技巧。
低秩方法——另一種新興的技術(shù)是通過(guò)利用自注意矩陣的低秩近似來(lái)提高效率。
內(nèi)核——另一個(gè)最近流行的提高transformer效率的方法是通過(guò)內(nèi)核化來(lái)查看注意力機(jī)制。
遞歸——塊方法的一個(gè)自然擴(kuò)展是通過(guò)遞歸連接這些塊。
下采樣——另一種降低計(jì)算成本的常用方法是降低序列的分辨率,從而以相應(yīng)的系數(shù)降低計(jì)算成本。
稀疏模型和條件計(jì)算——雖然不是專門針對(duì)注意力模塊,稀疏模型稀疏地激活一個(gè)參數(shù)子集,這通常提高了參數(shù)與FLOPs的比率。
參考資料:
https://arxiv.org/abs/2009.06732

