馬里蘭大學(xué)華人博士提出Transformer-LS霸榜ImageNet,輸入長(zhǎng)度提升三倍

新智元報(bào)道
新智元報(bào)道
來(lái)源:馬里蘭大學(xué)
編輯:LRS
【新智元導(dǎo)讀】你是否受到Transformer無(wú)法輸入篇章級(jí)詞匯數(shù)量的困擾?馬里蘭大學(xué)華人博士提出能輸入超長(zhǎng)文本的Transformer-LS!無(wú)需更換硬件,輸入長(zhǎng)度即可提升三倍,參數(shù)壓縮率超100%!
Transformer模型在語(yǔ)言nlp和視覺cv領(lǐng)域都取得了巨大的成功。
然而,由于自注意機(jī)制具有與輸入序列長(zhǎng)度N相關(guān)的二次方時(shí)間和記憶復(fù)雜度O(N^2),因此將它們擴(kuò)展到長(zhǎng)序列(如長(zhǎng)文檔或高分辨率圖像)是非常費(fèi)時(shí)費(fèi)內(nèi)存的。
以前的方法通常將它們分成等距的片段,并基于每個(gè)片段獨(dú)立地預(yù)測(cè)文本向量,而不考慮其他片段的信息。
在模型改進(jìn)上,人們也提出了許多方法來(lái)處理注意力機(jī)制過(guò)于復(fù)雜問(wèn)題。一般來(lái)說(shuō),它們可以分為以下幾類:
1)具有預(yù)定義模式的(例如滑動(dòng)窗口)的模型,包括Sparse Transformer, Image Transformer, Axial Transformer等模型用來(lái)建模圖像,Longformer, ETC, Big Bird等用來(lái)建模語(yǔ)言。
2)low-rank投射注意,包括Linformer, Nystromformer, Synthesizer。例如,Linformer使用線性層來(lái)投影從長(zhǎng)度為n的原始高維度鍵(K)和值(V)到大小為r(r 遠(yuǎn)遠(yuǎn)小于 n)的低維度并允許所有查詢標(biāo)記(Q)參與這些壓縮表示。
3)基于內(nèi)存壓縮機(jī)制的,像Compressive Transformer和SetTransfomer,它們使用額外的內(nèi)存來(lái)緩存全局遠(yuǎn)程信息,用于計(jì)算距離較遠(yuǎn)的詞之間的注意力。
4)基于核的注意力矩陣近似,包括Performer, Linear Transformer, Random Feature Attention。
5) 基于相似度和聚類的方法,包括Reformer, Routing Transformer和Sinkhorn Transformer。
針對(duì)這個(gè)問(wèn)題,馬里蘭大學(xué)和英偉達(dá)共同提出一個(gè)新模型,基于low-rank映射和局部窗口注意力的長(zhǎng)短Transformer(Long-Short Transformer, Transformer-LS)。

Transformer-LS采用一個(gè)高效的自注意機(jī)制,用于建模具有線性復(fù)雜度的長(zhǎng)序列的語(yǔ)言和視覺任務(wù)。它通過(guò)動(dòng)態(tài)投影聚合長(zhǎng)距離注意力來(lái)模擬遠(yuǎn)距離相關(guān)性,并通過(guò)短期注意力來(lái)捕捉細(xì)粒度的局部相關(guān)性。
同時(shí)提出了一種雙重歸一化策略來(lái)解釋這兩種注意機(jī)制之間的規(guī)模不匹配。Transformer-LS可以應(yīng)用于自回歸和雙向模型,并且沒有引入額外的復(fù)雜度。這個(gè)方法在語(yǔ)言和視覺領(lǐng)域的多個(gè)任務(wù)上優(yōu)于sota模型,包括Long Range Arena 基準(zhǔn)測(cè)試、自回歸語(yǔ)言建模和 ImageNet 分類。

例如,Transformer-LS 在 enwik8上實(shí)現(xiàn)了0.97測(cè)試 BPC,使用的參數(shù)數(shù)量是以前方法的一半,而且速度更快,想比完全注意力機(jī)制,在相同的硬件上新方法能夠能夠處理長(zhǎng)3倍的序列。在ImageNet上,它也取得了sota 結(jié)果(只訓(xùn)練224*224 ImageNet-1K數(shù)據(jù)集,top1準(zhǔn)確率達(dá)到了84.1%),同時(shí)這個(gè)方法在高分辨率圖像上也具有通用性。
目前模型和源代碼還沒有公布,但文中稱很快將會(huì)公開。
這篇論文的第一作者是Chen Zhu,馬里蘭大學(xué)巴爾的摩分校計(jì)算機(jī)科學(xué)的博士生,導(dǎo)師是 Tom Goldstein 教授。主要研究方向是機(jī)器學(xué)習(xí),以及它在計(jì)算機(jī)視覺中的應(yīng)用。于2018年獲得了上??萍即髮W(xué)的碩士學(xué)位,并于2015年獲得了北京航空航天大學(xué)的電子與信息工程學(xué)士學(xué)位。

文章的第二作者是 NVIDIA 的高級(jí)研究科學(xué)家,致力于機(jī)器學(xué)習(xí)、語(yǔ)音和自然語(yǔ)言處理。在此之前,我是百度研究的 TTS 團(tuán)隊(duì)領(lǐng)導(dǎo)。2016年在加州大學(xué)歐文分校獲得了機(jī)器學(xué)習(xí)博士學(xué)位。熱衷于為各個(gè)領(lǐng)域建立最先進(jìn)的生成模型,包括音頻、文本和視頻。

Tom Goldstein教授的研究主要集中在機(jī)器學(xué)習(xí)和優(yōu)化的交叉領(lǐng)域,目標(biāo)應(yīng)用于計(jì)算機(jī)視覺和信號(hào)處理。在理論和實(shí)踐之間的邊界工作,利用數(shù)學(xué)基礎(chǔ)、復(fù)雜模型和高效硬件來(lái)構(gòu)建實(shí)用的、高性能的系統(tǒng)。設(shè)計(jì)了多種平臺(tái)的優(yōu)化方法,從強(qiáng)大的集群/云計(jì)算環(huán)境到資源有限的集成電路和 fpga。在加入馬里蘭大學(xué)之前,他在加州大學(xué)洛杉磯分校完成了數(shù)學(xué)博士學(xué)位,并在萊斯大學(xué)和斯坦福大學(xué)擔(dān)任研究科學(xué)家。曾經(jīng)獲得包括 SIAM 的 DiPrima 獎(jiǎng),DARPA 青年教師獎(jiǎng)和 Sloan 基金獎(jiǎng)勵(lì)。

為了評(píng)估Transformer-LS作為長(zhǎng)文本的雙向編碼器的效果,從最近提出的長(zhǎng)期研究中選擇了三個(gè)NLP任務(wù)Long Range Arena (LRA)基準(zhǔn):
1、ListOps,ListOps被設(shè)計(jì)用來(lái)通過(guò)層次結(jié)構(gòu)數(shù)據(jù)來(lái)度量模型的解析能力。遵循中的設(shè)置,其中每個(gè)實(shí)例包含500-2000個(gè)詞。
2、Text。這是一個(gè)二元情感分類任務(wù),用于預(yù)測(cè)來(lái)自IMDb電影評(píng)論是否是正面的評(píng)論。做出正確的預(yù)測(cè)需要一個(gè)模型來(lái)推理組合的未分段字符級(jí)長(zhǎng)序列,最大長(zhǎng)度為4k。
3、召回。此任務(wù)基于ACL Anthology Network數(shù)據(jù)集。模型需要分類兩篇論文之間是否存在共同引用,以評(píng)估模型的有效性為基于相似性的匹配編碼長(zhǎng)序列的能力。最大序列長(zhǎng)度每個(gè)字節(jié)級(jí)的文檔是4k,模型每次并行處理兩個(gè)文檔。

Transformer XL(完全注意力)和Transformer-LS在Char LM上的運(yùn)行時(shí)間和內(nèi)存消耗如下圖。增加序列長(zhǎng)度,直到用完V100GPU上的32GB內(nèi)存。Transformer-LS與較小模型消耗相同,使用虛線表示完全注意力,實(shí)線代表我們的Transformer-LS。用不同的顏色來(lái)表示不同的批量大小。

結(jié)果顯示了text8和enwik8的比較。文中提出的方法達(dá)到了sota水平。在text8上,用較小的模型實(shí)現(xiàn)了1.09的測(cè)試BPC。在enwik8上,我們的小該模型的測(cè)試BPC為0.99,性能優(yōu)于具有可比性的最新模型參數(shù)。大模型獲得的測(cè)試BPC為0.97,與壓縮率相當(dāng)于2倍參數(shù)Transformer。
在5個(gè)階段和48 GPU內(nèi)存更長(zhǎng)的序列,結(jié)果總是比經(jīng)過(guò)訓(xùn)練的Longformer更好。
參考資料:
https://arxiv.org/abs/2107.02192
-往期精彩-



