(附論文)綜述 | Transformer模型的多種變體?
點(diǎn)擊左上方藍(lán)字關(guān)注我們

轉(zhuǎn)載自 | 機(jī)器之心

模型效率。應(yīng)用 Transformer 的一個關(guān)鍵挑戰(zhàn)是其處理長序列時的效率低下,這主要是由于自注意力(self-attention)模塊的計(jì)算和內(nèi)存復(fù)雜度。改進(jìn)的方法包括輕量級 attention(例如稀疏 attention 變體)和分而治之的方法(例如循環(huán)和分層機(jī)制);
模型泛化。由于 Transformer 是一種靈活的架構(gòu),并且對輸入數(shù)據(jù)的結(jié)構(gòu)偏差幾乎沒有假設(shè),因此很難在小規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練。改進(jìn)方法包括引入結(jié)構(gòu)偏差或正則化,對大規(guī)模未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練等;
模型適配。這一系列工作旨在使 Transformer 適應(yīng)特定的下游任務(wù)和應(yīng)用程序。

使用編碼器 - 解碼器,通常用于序列到序列建模,例如神經(jīng)機(jī)器翻譯;
僅使用編碼器,編碼器的輸出用作輸入序列的表示,通常用于分類或序列標(biāo)記問題;
僅使用解碼器,其中也移除了編碼器 - 解碼器 cross-attention 模塊,通常用于序列生成,例如語言建模。


復(fù)雜度。self-attention 的復(fù)雜度為 O(T^2·D)。因此,attention 模塊在處理長序列時會遇到瓶頸;
結(jié)構(gòu)先驗(yàn)。Self-attention 對輸入沒有假設(shè)任何結(jié)構(gòu)性偏差,甚至指令信息也需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。因此,無預(yù)訓(xùn)練的 Transformer 通常容易在中小型數(shù)據(jù)集上過擬合。
稀疏 attention。將稀疏偏差引入 attention 機(jī)制可以降低了復(fù)雜性;
線性化 attention。解開 attention 矩陣與內(nèi)核特征圖,然后以相反的順序計(jì)算 attention 以實(shí)現(xiàn)線性復(fù)雜度;
原型和內(nèi)存壓縮。這類方法減少了查詢或鍵值記憶對的數(shù)量,以減少注意力矩陣的大??;
低階 self-Attention。這一系列工作捕獲了 self-Attention 的低階屬性;
Attention 與先驗(yàn)。該研究探索了用先驗(yàn) attention 分布來補(bǔ)充或替代標(biāo)準(zhǔn) attention;
改進(jìn)多頭機(jī)制。該系列研究探索了不同的替代多頭機(jī)制。



按光柵掃描順序展平圖像像素,然后應(yīng)用塊局部稀疏 attention; 2D 塊局部 attention,其中查詢塊和內(nèi)存塊直接排列在 2D 板中,如上圖 (b) 所示。









END
整理不易,點(diǎn)贊三連↓
