Transformer | 沒有Attention的Transformer依然是頂流?。。?/h1>
點擊下面卡片關注,”AI算法與圖像處理”
最新CV成果,火速送達
本文主要介紹了Attention Free Transformer(AFT),同時作者還引入了AFT-local和AFT-Conv,這兩個模型在保持全局連通性的同時,利用了局域性和空間權重共享的思想。通過實驗驗證了AFT在所有benchmarks上具有競爭性能的同時具有出色的效率。
1簡介
本文主要介紹了Attention Free Transformer(AFT),在AFT層中,首先將key和value與一組學習到的位置偏差結合起來,然后以元素方式將其結果與query相乘。這個新的操作在context size和特征維度上都具有線性的內(nèi)存復雜度,使得它能夠兼容大的輸入和模型大小。
作者還引入了AFT-local和AFT-Conv,這兩個模型變種在保持全局連通性的同時還利用了局域性和空間權重共享的思想。作者對2個自回歸建模任務(CIFAR10和Enwik8)以及一個圖像識別任務(ImageNet-1K分類)進行了廣泛的實驗。驗證了AFT在所有benchmarks上不僅具有不錯的性能,同時還具有出色的效率。
2本文方法
2.1 Attention Free Transformer
首先,定義了Attention Free Transformer(AFT),它是MHA的plugin replacement,不需要改變Transformer的其他架構。給定輸入X, AFT先將它們線性變換為
,
,
,然后執(zhí)行以下操作:
其中,
是元素的乘積;
是應用于query的非線性映射,默認為sigmoid;
是學習到成對的位置偏差。
換句話說,對于每個目標位置
, AFT把加權平均的結果與具有元素級乘法的query相結合。而加權操作則是由key和一組學習成對的位置偏差組成。這提供了一個直接的優(yōu)勢,即不需要計算和存儲消耗大的注意力矩陣,同時能夠像MHA那樣維護query和value之間的全局交互。
為了進一步了解AFT與MHA的關系可以將方程改寫為:
這里使用上標
來索引矩陣的特征維數(shù)。在這種重新排列的形式中,能夠再次用注意力來表達AFT。具體來說,對于每個位置有一個關注向量
,每個維度由
組成。換句話說,AFT可以解釋為與特征尺寸一樣多的Head中進行implicit attention,其中注意力矩陣采用因數(shù)分解的形式進行求解。
2.2 AFT variants: locality, weight sharing and parameterization
1 AFT-full
將下面方程中定義的AFT的基本版本表示為AFT-full:
2 AFT-local
作者發(fā)現(xiàn)了訓練的標準Transformers傾向于表現(xiàn)出廣泛的局部注意力模式。具體地說,把ImagenetNet預訓練Vision Transformer(ViT),由12層組成,每層6個Head。為了實現(xiàn)可視化忽略分類標記,將每一層的注意力張量reshape為6×196×196(因為ViT特征圖的空間大小為14×14)。然后從ImageNet驗證集中采樣256張圖像。對于每一層和每一個Head,計算平均的average relative 2d attentions、averaged across position和images。這就產(chǎn)生了一組尺寸為12×6×27×27的注意力map(如下圖)。
通過上圖可以看到,相對注意力Map顯示出強烈的局部模式,特別是在lower layers。這激發(fā)了AFT的一種變體,稱為AFT-local,即只在局部應用一組學習到的相對位置偏差:
這里s≤T是一個局部window size。AFT-local提供了進一步的計算量的節(jié)省,包括參數(shù)的數(shù)量和時間/空間復雜度。
3 AFT-simple
AFT-local的一個極端形式是當s=0時,即沒有學習到位置偏差。這就產(chǎn)生了一個極其簡單的AFT版本,AFT-simple,有:
在這個版本中,context reduction進一步簡化為元素操作和全局池化。其實AFT-simple類似于線性化注意,公式為:
然而,AFT-simple完全擺脫了點積操作,這促使復雜度從
降低為
。
4 AFT-conv
作者還可以進一步擴展局部化locality的思想,加入空間權值共享,即卷積。這種變體與視覺任務特別相關,因為它通常希望將一個預訓練模型擴展到可變大小的輸入。具體來說,讓
的值只依賴于
和
, 而
為在給定的空間網(wǎng)格(1d或2d)中的相對位置。與CNN類似也可以學習多組位置偏差(重用head的概念作為參考)。為了考慮到#parameters隨著 #heads的增加而增長,作者還采用了一個設計,將K的維度與#heads聯(lián)系起來。這使得AFT-conv可修改為依賴于深度可分離卷積、全局池化和元素操作來實現(xiàn)。
類似的尺寸的AFT-conv學習到的相對位置偏差。
舉一個例子,這里將模型構型表示為AFT-conv-h-s,其中h為head的個數(shù),s×s為2d local window size。,于是對于每一個head
來說,有:
注意,上式可以很容易地解釋為一個特殊的卷積層,具有:
-
全局連通性
-
非負卷積權值
-
復雜的除法/乘法門機制
實驗表明,這3個方面對AFT-conv的性能都有顯著的影響。
5 Parameterization
根據(jù)經(jīng)驗,作者發(fā)現(xiàn)適當?shù)貐?shù)化位置偏差是很重要的。
對于AFT-full和AFT-local,采用w的因數(shù)分解形式:
其中
是一個小的嵌入維數(shù)(例如128)。這種簡單的因式分解不僅大大減少了參數(shù)量,而且在訓練和測試中都有效地提高了模型的性能。
對于AFT-conv,因式分解的技巧并不適用。相反,作者采用一個簡單的重新參數(shù)化,對于每個head i,讓:
其中
是可學習增益和偏置參數(shù),均初始化為0。
3實驗
3.1 Image Autoregressive Modeling
SOTA模型對比
Factorization的影響
3.2 Language Modeling
SOTA模型對比
local window size的影響
Longer sequence size
3.3 Image Classification
4參考
[1].An Attention Free Transformer
個人微信(如果沒有備注不拉群!)
請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權威的編程規(guī)范!
下載3 CVPR2021
在「AI算法與圖像處理」公眾號后臺回復:CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮
,告訴大家你也在看
瀏覽
84
點擊下面卡片關注,”AI算法與圖像處理”
最新CV成果,火速送達
本文主要介紹了Attention Free Transformer(AFT),同時作者還引入了AFT-local和AFT-Conv,這兩個模型在保持全局連通性的同時,利用了局域性和空間權重共享的思想。通過實驗驗證了AFT在所有benchmarks上具有競爭性能的同時具有出色的效率。
1簡介
本文主要介紹了Attention Free Transformer(AFT),在AFT層中,首先將key和value與一組學習到的位置偏差結合起來,然后以元素方式將其結果與query相乘。這個新的操作在context size和特征維度上都具有線性的內(nèi)存復雜度,使得它能夠兼容大的輸入和模型大小。
作者還引入了AFT-local和AFT-Conv,這兩個模型變種在保持全局連通性的同時還利用了局域性和空間權重共享的思想。作者對2個自回歸建模任務(CIFAR10和Enwik8)以及一個圖像識別任務(ImageNet-1K分類)進行了廣泛的實驗。驗證了AFT在所有benchmarks上不僅具有不錯的性能,同時還具有出色的效率。
2本文方法
2.1 Attention Free Transformer
首先,定義了Attention Free Transformer(AFT),它是MHA的plugin replacement,不需要改變Transformer的其他架構。給定輸入X, AFT先將它們線性變換為 , , ,然后執(zhí)行以下操作:
其中, 是元素的乘積; 是應用于query的非線性映射,默認為sigmoid; 是學習到成對的位置偏差。
換句話說,對于每個目標位置 , AFT把加權平均的結果與具有元素級乘法的query相結合。而加權操作則是由key和一組學習成對的位置偏差組成。這提供了一個直接的優(yōu)勢,即不需要計算和存儲消耗大的注意力矩陣,同時能夠像MHA那樣維護query和value之間的全局交互。
為了進一步了解AFT與MHA的關系可以將方程改寫為:
這里使用上標 來索引矩陣的特征維數(shù)。在這種重新排列的形式中,能夠再次用注意力來表達AFT。具體來說,對于每個位置有一個關注向量 ,每個維度由 組成。換句話說,AFT可以解釋為與特征尺寸一樣多的Head中進行implicit attention,其中注意力矩陣采用因數(shù)分解的形式進行求解。
2.2 AFT variants: locality, weight sharing and parameterization
1 AFT-full
將下面方程中定義的AFT的基本版本表示為AFT-full:
2 AFT-local
作者發(fā)現(xiàn)了訓練的標準Transformers傾向于表現(xiàn)出廣泛的局部注意力模式。具體地說,把ImagenetNet預訓練Vision Transformer(ViT),由12層組成,每層6個Head。為了實現(xiàn)可視化忽略分類標記,將每一層的注意力張量reshape為6×196×196(因為ViT特征圖的空間大小為14×14)。然后從ImageNet驗證集中采樣256張圖像。對于每一層和每一個Head,計算平均的average relative 2d attentions、averaged across position和images。這就產(chǎn)生了一組尺寸為12×6×27×27的注意力map(如下圖)。
通過上圖可以看到,相對注意力Map顯示出強烈的局部模式,特別是在lower layers。這激發(fā)了AFT的一種變體,稱為AFT-local,即只在局部應用一組學習到的相對位置偏差:
這里s≤T是一個局部window size。AFT-local提供了進一步的計算量的節(jié)省,包括參數(shù)的數(shù)量和時間/空間復雜度。
3 AFT-simple
AFT-local的一個極端形式是當s=0時,即沒有學習到位置偏差。這就產(chǎn)生了一個極其簡單的AFT版本,AFT-simple,有:
在這個版本中,context reduction進一步簡化為元素操作和全局池化。其實AFT-simple類似于線性化注意,公式為:
然而,AFT-simple完全擺脫了點積操作,這促使復雜度從 降低為 。
4 AFT-conv
作者還可以進一步擴展局部化locality的思想,加入空間權值共享,即卷積。這種變體與視覺任務特別相關,因為它通常希望將一個預訓練模型擴展到可變大小的輸入。具體來說,讓 的值只依賴于 和 , 而 為在給定的空間網(wǎng)格(1d或2d)中的相對位置。與CNN類似也可以學習多組位置偏差(重用head的概念作為參考)。為了考慮到#parameters隨著 #heads的增加而增長,作者還采用了一個設計,將K的維度與#heads聯(lián)系起來。這使得AFT-conv可修改為依賴于深度可分離卷積、全局池化和元素操作來實現(xiàn)。
類似的尺寸的AFT-conv學習到的相對位置偏差。
舉一個例子,這里將模型構型表示為AFT-conv-h-s,其中h為head的個數(shù),s×s為2d local window size。,于是對于每一個head 來說,有:
注意,上式可以很容易地解釋為一個特殊的卷積層,具有:
-
全局連通性
-
非負卷積權值
-
復雜的除法/乘法門機制
實驗表明,這3個方面對AFT-conv的性能都有顯著的影響。
5 Parameterization
根據(jù)經(jīng)驗,作者發(fā)現(xiàn)適當?shù)貐?shù)化位置偏差是很重要的。
對于AFT-full和AFT-local,采用w的因數(shù)分解形式:
其中 是一個小的嵌入維數(shù)(例如128)。這種簡單的因式分解不僅大大減少了參數(shù)量,而且在訓練和測試中都有效地提高了模型的性能。
對于AFT-conv,因式分解的技巧并不適用。相反,作者采用一個簡單的重新參數(shù)化,對于每個head i,讓:
其中 是可學習增益和偏置參數(shù),均初始化為0。
3實驗
3.1 Image Autoregressive Modeling
SOTA模型對比
Factorization的影響
3.2 Language Modeling
SOTA模型對比
local window size的影響
Longer sequence size
3.3 Image Classification
4參考
[1].An Attention Free Transformer
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權威的編程規(guī)范!
下載3 CVPR2021
在「AI算法與圖像處理」公眾號后臺回復:CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮
,告訴大家你也在看
