Transformer大升級!谷歌、OpenAI聯(lián)合推出分層模型,刷榜ImageNet32刷新SOTA

極市導讀
?來自谷歌、OpenAI和華沙大學的一個團隊提出了一種新的用于語言建模的高效Transformer架構Hourglass,在ImageNet32上達到新的SOTA,證明擁有一個明確的分層結構是Transformer能有效處理長序列的關鍵。Hourglass在給定相同計算量和存儲量的情況下,可以產生比Transformer更好的結果。>>加入極市CV技術交流群,走在計算機視覺的最前沿
Transformer模型在很多不同的領域都取得了SOTA,包括自然語言,對話,圖像,甚至音樂。每個Transformer體系結構的核心模塊是注意力模塊,它為一個輸入序列中的所有位置對計算相似度score。
??
Transformer示意圖
?
然而,Transformer在輸入序列的長度較長時效果不佳,因為它需要計算時間呈平方增長來產生所有相似性得分,以及存儲空間的平方增長來構造一個矩陣存儲這些score,因此將它們擴展到長序列(如長文檔或高分辨率圖像)是非常費時費內存的。
?
對于需要長距離注意力的應用,目前已經提出了幾種快速且更節(jié)省空間的方法,如常見的稀疏注意力。
?
稀疏注意力機制通過從一個序列而不是所有可能的Pair中計算經過選擇的相似性得分來減少注意機制的計算時間和內存需求,從而產生一個稀疏矩陣而不是一個完整的矩陣。
?

?
這些稀疏條目可以通過優(yōu)化的方法找到、學習,甚至隨機化,如Performer、Sparse Transformers、Longformers、RoutingTransformers、Reformers和BigBird。
?

?Performer示意圖
?
雖然,稀疏注意力引入了許多技術來修改注意機制,但是,整體Transformer的架構并沒有改變。這些稀疏注意機制降低了自我注意的復雜性,但仍然迫使模型要處理與輸入相同長度的序列。
?
為了緩解這些問題,來自谷歌、OpenAI和華沙大學的團隊提出了一種新的用于語言建模的高效Transformer架構,稱之為Hourglass。
?

論文地址:https://arxiv.org/pdf/2110.13711v1.pdf
?
Hourglass假設,擁有一個明確的層次結構是Transformer有效處理長序列的關鍵,
?
所以,Hourglass中對激活進行下采樣和上采樣的不同方法,以便使tokens分層。
?

?Hourglass算法偽代碼
Hourglass使用縮短操作將tokens合并,因此減少了總的序列長度,然后結合來自早期層的序列再次對它們進行上采樣。
?

Hourglass架構概述
?
Hourglass的結構從基本層開始,基本層是在完全tokens序列上運行的一堆Transformer塊。
?
在此之后,插入縮短層,其中k1是縮短因子參數。在縮短之前,序列被向右移動,以防止信息泄露。
?

縮短方法示意圖
?
然后遞歸地插入另一個縮短塊,以縮小k1k2倍的最小規(guī)模運行。
?
之后就要對經過處理的tokens進行上采樣,上采樣層將生成的激活信息恢復到原始tokens的分辨率。
?

上采樣示意圖
?
在上采樣和殘差連接后,生成的激活信息會由token級別的Transformer普通層處理。
?
研究人員將Hourglass應用于三個語言建模任務。為了展示Hourglass跨領域泛化能力,他們在一個與自然語言處理相關的數據集和兩個來自計算機視覺領域的數據集上訓練Hourglass模型。
?
結果表明,Hourglass在給定相同計算量和存儲量的情況下,對Transformer基線進行了改進,可以產生比Transformer更好的結果。
?

Transformer-XL與Hourglass的訓練所用存儲的比較
?
特別是,Hourglass在廣泛研究的enwik8基準上也提高了語言建模效率。
?

基線(紅色)和分層Transformer(綠色)的每字符位數與計算成本的關系
?
Enwik8是一個字節(jié)級語言建?;鶞?,包含1億字節(jié)未處理的英文維基百科文本。
?
在測試集上評估Hourglass模型,將其拆分為序列長為6912,步長為128的重疊序列,并僅計算最后128個token的測試損失。使用(5@1,24@3,5@1)層次結構,最終得到0.997BPC。
?

Enwik8結果
?
Hourglass還在ImageNet32生成任務上實現自回歸Transformer模型新的SOTA。
?

下采樣圖像的每維位數(BPD),自回歸模型和非自回歸模型用一條水平線分開
?

模型生成的例子,其中每個圖像的下半部分由我們的模型生成,由上半部分提示
?
Hourglass在ImageNet32生成任務的自回歸模型中獲得最佳結果,在其他圖像生成和語言建模任務中也獲得極具競爭力的結果。
?
特別值得說明的是,Hourglass可以用于任何注意力類型,這為未來處理更長序列的Transformer的相關研究開辟了許多方向,提高了效率和準確性之間的權衡。
?
參考資料:
https://arxiv.org/pdf/2110.13711.pdf https://www.reddit.com/r/MachineLearning/comments/qmm9z7/r_hierarchical_transformers_are_more_efficient/
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復“CVPR21檢測”獲取CVPR2021目標檢測論文下載~

#?CV技術社群邀請函?#

備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)
即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群
每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

