<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一年六篇頂會的清華大神提出Fastformer:史上最快、效果最好的Transformer

          共 3032字,需瀏覽 7分鐘

           ·

          2021-08-28 22:40



            新智元報道  

          來源:arXiv

          編輯:LRS

          【新智元導(dǎo)讀】Transformer模型好是好,可惜太慢了!最近一位清華大神在arxiv上傳了一篇論文,提出新模型Fastformer,線性時間復(fù)雜度,訓(xùn)練和推理效率史上最快,還順手在排行榜刷了個sota。


          Transformer 的強大毋庸置疑,想要在CV和NLP的排行榜上取得一席之地,Transformer幾乎是必不可少的骨架模型。

           

          但它的效率相比傳統(tǒng)的文本理解模型來說卻不敢恭維,Transformer的核心是自注意力(self-attention)機制,對于輸入長度為N的文本,它的時間復(fù)雜度達到二次O(N^2)。

           

          雖然已經(jīng)有很多方法來處理 Transformer 加速問題,但是對于長序列來說,這些方法要么效率仍然較低或是效果還不夠好,例如BigBird使用稀疏注意力卻丟失了全局上下文信息。

           

          清華大學(xué)提出了一個新模型Fastformer,基于additive attention能夠以線性復(fù)雜度來建立上下文信息。

           

          論文地址:https://arxiv.org/abs/2108.09084


          文章的第一作者武楚涵,是清華大學(xué)電子工程系的博士研究生。


          目前的研究興趣包括推薦系統(tǒng)、用戶建模和社會媒體挖掘。在人工智能、自然語言處理和數(shù)據(jù)挖掘領(lǐng)域的會議和期刊上發(fā)表過多篇論文。

           

           

          僅2021年就在頂會上發(fā)表了六篇論文,大神的世界只能仰望。

           

           

          論文的通訊作者是黃永峰,清華大學(xué)電子系教授,博士,博導(dǎo),信息認知和智能系統(tǒng)研究所副所長,首屆全國十佳網(wǎng)絡(luò)安全優(yōu)秀教師。


          主要從事網(wǎng)絡(luò)及網(wǎng)絡(luò)安全技術(shù)的研究和教學(xué)?,F(xiàn)為IEEE Senior Member、中國電子學(xué)會信息隱藏與多媒體安全專家委員會委員。


          已在IEEE Transaction IFS和中國科學(xué)等國內(nèi)外著名期刊和AAAI和ACL等重要國際會議發(fā)表論文300多篇;出版專著4部、譯著2部,教材2部。申請和授權(quán)發(fā)明專利10余項。

           

           

          Fastformer首先對輸入的attention query矩陣合并為一個全局query向量,然后對attention的key和全局query向量采用element-wise的乘法學(xué)習(xí)到全局上下文相關(guān)key矩陣,再通過additive attention合并為全局key向量。

           

          通過元素乘積對全局key和attention之間的交互進行建模,并使用線性變換學(xué)習(xí)全局上下文感知的注意力,最后將它們與attention query查詢一起添加以形成最終輸出。

           

           

          由此,計算復(fù)雜度可以降低到線性,并且可以有效地捕獲輸入序列中的上下文信息。

           

          對于學(xué)習(xí)全局query和key向量的additive attention網(wǎng)絡(luò),其時間和內(nèi)存開銷均為O(N·d),參數(shù)總數(shù)為2hd(h為注意頭數(shù))。此外,元素乘積的時間代價和內(nèi)存代價也是O(N·d),總復(fù)雜度是,比標準的Transformer復(fù)雜度要更有效率。

           

          如果采用權(quán)重共享(weight sharing)方法,每層Fastformer的總參數(shù)量為,也有更少的參數(shù)。


          模型驗證


          論文在五個不同任務(wù)的數(shù)據(jù)集上進行實驗來驗證Fastformer的效率:


          1. IMDB,電影評論星級預(yù)測數(shù)據(jù);

          2. MIND,一個大規(guī)模的新聞推薦數(shù)據(jù)集。在這個數(shù)據(jù)上進行兩個任務(wù):新聞主題分類和個性化推薦;

          3.  CNN/DailyMail數(shù)據(jù)集,一個廣泛使用的文本摘要數(shù)據(jù)集;

          4.  PubMed數(shù)據(jù)集,包含更長文本的文本摘要數(shù)據(jù)集;

          5. Amazon 電子產(chǎn)品領(lǐng)域評論星級預(yù)測數(shù)據(jù)。


           

          實驗過程中使用Glove詞向量初始化,在32GB的V100 GPU上進行5次實驗取性能的平均值。

           

          對比模型包括:

          1. 標準的Transformer;

          2. Longformer,基于稀疏注意力的Transformer,結(jié)合了滑動窗口注意力和全局注意力來建模局部和全局上下文;

          3. BigBird,Longformer的擴展,包括稀疏隨機注意力機制;

          4. Linformer,一個線性復(fù)雜度的Transformer,使用低維key和value矩陣來計算近似self-attention;

          5. Linear Transformer,也是線性復(fù)雜度的Transformer,使用核函數(shù)來估計self-attention機制;

          6. Poolingformer,一種層次結(jié)構(gòu),首先使用滑動窗口自注意力來捕捉短距離的內(nèi)容,然后使用pooling self-attention來捕捉長距離的上下文。

           

          在分類任務(wù)上,可以看到FastFormer要比標準的Transformer要更好。

           

           

          比較不同方法在新聞推薦任務(wù)中的性能時,又增加了三個模型:

          1. NRMS,它使用多頭自注意力網(wǎng)絡(luò)學(xué)習(xí)新聞和用戶表征;

          2. FIM,一種用于個性化新聞推薦的細粒度興趣匹配方法;

          3. PLM-NR,使用預(yù)訓(xùn)練的語言模型為新聞推薦提供基礎(chǔ)。

           

          在不同的Transformer結(jié)構(gòu)中,F(xiàn)astformer達到了最好的性能,并且它也優(yōu)于基本NRMS模型。此外,F(xiàn)astformer可以進一步提高PLM-NR的性能,并且集成模型在MIND排行榜上獲得最佳結(jié)果。


          結(jié)果分析 


          結(jié)果表明,F(xiàn)astformer不僅在文本建模方面是有效的,而且在理解用戶興趣方面也是有效的。

           

          既然提到快,在效率的對比上也要進行實驗。將輸入序列的長度從128調(diào)整為65535,并將batch size的大小與序列長度成反比。使用隨機生成token作為偽樣本,并固定token embedding以更好地測量不同方法的計算成本。

           

           

          當序列長度相對較長時(例如512),Transformer效率較低。此外還發(fā)現(xiàn),雖然Poolingformer在理論上具有線性復(fù)雜性,但在實踐中效率低下。這是因為它使用的窗口大?。ɡ?56)以類似卷積的方式計算池權(quán)重,這導(dǎo)致計算成本的非常大的常數(shù)項。

           

          在訓(xùn)練和推理時間方面,F(xiàn)astformer比其他線性復(fù)雜度Transformer更有效,這些結(jié)果驗證了Fastformer的有效性。

           

          不同的參數(shù)共享技術(shù)對Fastformer的技術(shù)也有影響,通過共享query和value轉(zhuǎn)換矩陣,在不同的注意頭之間共享參數(shù),可以發(fā)現(xiàn),與沒有任何參數(shù)共享技術(shù)的Fastformer模型相比,使用query-value參數(shù)共享可以獲得類似或略好的性能。因此可以通過共享query和value轉(zhuǎn)換矩陣來減少參數(shù)大小。

           

          此外,頭部參數(shù)共享將導(dǎo)致顯著的性能下降。這是因為不同的注意頭需要捕捉不同的上下文模式,而共享它們的參數(shù)對上下文建模是不利的,采用分層共享方法可以進一步提高模型的性能,因為不同層之間的參數(shù)共享可以緩解過擬合的風(fēng)險。



          參考資料:

          https://arxiv.org/abs/2108.09084




          瀏覽 27
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  狠狠av | 国语对白永久免费 | 一级黄片免费视频 | 亚洲欧美日韩在线 | 岛国av在线观看网址国产 |