夜夜狠狠躁日日躁,观看免费A片,污网站在线播放,色哟哟《欧美精品》,久久才是精品,成a V电影,午夜精品成人,日韩淫色综合网站

新智元報道

來源：arXiv

編輯：LRS

【新智元導(dǎo)讀】Transformer模型好是好，可惜太慢了！最近一位清華大神在arxiv上傳了一篇論文，提出新模型Fastformer，線性時間復(fù)雜度，訓(xùn)練和推理效率史上最快，還順手在排行榜刷了個sota。

Transformer 的強大毋庸置疑，想要在CV和NLP的排行榜上取得一席之地，Transformer幾乎是必不可少的骨架模型。

但它的效率相比傳統(tǒng)的文本理解模型來說卻不敢恭維，Transformer的核心是自注意力（self-attention）機制，對于輸入長度為N的文本，它的時間復(fù)雜度達到二次O(N^2)。

雖然已經(jīng)有很多方法來處理 Transformer 加速問題，但是對于長序列來說，這些方法要么效率仍然較低或是效果還不夠好，例如BigBird使用稀疏注意力卻丟失了全局上下文信息。

清華大學(xué)提出了一個新模型Fastformer，基于additive attention能夠以線性復(fù)雜度來建立上下文信息。

論文地址：https://arxiv.org/abs/2108.09084

文章的第一作者武楚涵，是清華大學(xué)電子工程系的博士研究生。

目前的研究興趣包括推薦系統(tǒng)、用戶建模和社會媒體挖掘。在人工智能、自然語言處理和數(shù)據(jù)挖掘領(lǐng)域的會議和期刊上發(fā)表過多篇論文。

僅2021年就在頂會上發(fā)表了六篇論文，大神的世界只能仰望。

論文的通訊作者是黃永峰，清華大學(xué)電子系教授，博士，博導(dǎo)，信息認知和智能系統(tǒng)研究所副所長，首屆全國十佳網(wǎng)絡(luò)安全優(yōu)秀教師。

主要從事網(wǎng)絡(luò)及網(wǎng)絡(luò)安全技術(shù)的研究和教學(xué)?，F(xiàn)為IEEE Senior Member、中國電子學(xué)會信息隱藏與多媒體安全專家委員會委員。

已在IEEE Transaction IFS和中國科學(xué)等國內(nèi)外著名期刊和AAAI和ACL等重要國際會議發(fā)表論文300多篇；出版專著4部、譯著2部，教材2部。申請和授權(quán)發(fā)明專利10余項。

Fastformer首先對輸入的attention query矩陣合并為一個全局query向量，然后對attention的key和全局query向量采用element-wise的乘法學(xué)習(xí)到全局上下文相關(guān)key矩陣，再通過additive attention合并為全局key向量。

通過元素乘積對全局key和attention之間的交互進行建模，并使用線性變換學(xué)習(xí)全局上下文感知的注意力，最后將它們與attention query查詢一起添加以形成最終輸出。

由此，計算復(fù)雜度可以降低到線性，并且可以有效地捕獲輸入序列中的上下文信息。

對于學(xué)習(xí)全局query和key向量的additive attention網(wǎng)絡(luò)，其時間和內(nèi)存開銷均為O(N·d)，參數(shù)總數(shù)為2hd（h為注意頭數(shù)）。此外，元素乘積的時間代價和內(nèi)存代價也是O(N·d)，總復(fù)雜度是，比標準的Transformer復(fù)雜度要更有效率。

如果采用權(quán)重共享（weight sharing）方法，每層Fastformer的總參數(shù)量為，也有更少的參數(shù)。

模型驗證

論文在五個不同任務(wù)的數(shù)據(jù)集上進行實驗來驗證Fastformer的效率：

IMDB，電影評論星級預(yù)測數(shù)據(jù)；
MIND，一個大規(guī)模的新聞推薦數(shù)據(jù)集。在這個數(shù)據(jù)上進行兩個任務(wù)：新聞主題分類和個性化推薦；
CNN/DailyMail數(shù)據(jù)集，一個廣泛使用的文本摘要數(shù)據(jù)集；
PubMed數(shù)據(jù)集，包含更長文本的文本摘要數(shù)據(jù)集；
Amazon 電子產(chǎn)品領(lǐng)域評論星級預(yù)測數(shù)據(jù)。

實驗過程中使用Glove詞向量初始化，在32GB的V100 GPU上進行5次實驗取性能的平均值。

對比模型包括：

標準的Transformer；
Longformer，基于稀疏注意力的Transformer，結(jié)合了滑動窗口注意力和全局注意力來建模局部和全局上下文；
BigBird，Longformer的擴展，包括稀疏隨機注意力機制；
Linformer，一個線性復(fù)雜度的Transformer，使用低維key和value矩陣來計算近似self-attention；
Linear Transformer，也是線性復(fù)雜度的Transformer，使用核函數(shù)來估計self-attention機制；
Poolingformer，一種層次結(jié)構(gòu)，首先使用滑動窗口自注意力來捕捉短距離的內(nèi)容，然后使用pooling self-attention來捕捉長距離的上下文。

在分類任務(wù)上，可以看到FastFormer要比標準的Transformer要更好。

比較不同方法在新聞推薦任務(wù)中的性能時，又增加了三個模型：

NRMS，它使用多頭自注意力網(wǎng)絡(luò)學(xué)習(xí)新聞和用戶表征；
FIM，一種用于個性化新聞推薦的細粒度興趣匹配方法；
PLM-NR，使用預(yù)訓(xùn)練的語言模型為新聞推薦提供基礎(chǔ)。

在不同的Transformer結(jié)構(gòu)中，F(xiàn)astformer達到了最好的性能，并且它也優(yōu)于基本NRMS模型。此外，F(xiàn)astformer可以進一步提高PLM-NR的性能，并且集成模型在MIND排行榜上獲得最佳結(jié)果。

結(jié)果分析

結(jié)果表明，F(xiàn)astformer不僅在文本建模方面是有效的，而且在理解用戶興趣方面也是有效的。

既然提到快，在效率的對比上也要進行實驗。將輸入序列的長度從128調(diào)整為65535，并將batch size的大小與序列長度成反比。使用隨機生成token作為偽樣本，并固定token embedding以更好地測量不同方法的計算成本。

當序列長度相對較長時（例如512），Transformer效率較低。此外還發(fā)現(xiàn)，雖然Poolingformer在理論上具有線性復(fù)雜性，但在實踐中效率低下。這是因為它使用的窗口大?。ɡ?56）以類似卷積的方式計算池權(quán)重，這導(dǎo)致計算成本的非常大的常數(shù)項。

在訓(xùn)練和推理時間方面，F(xiàn)astformer比其他線性復(fù)雜度Transformer更有效，這些結(jié)果驗證了Fastformer的有效性。

不同的參數(shù)共享技術(shù)對Fastformer的技術(shù)也有影響，通過共享query和value轉(zhuǎn)換矩陣，在不同的注意頭之間共享參數(shù)，可以發(fā)現(xiàn)，與沒有任何參數(shù)共享技術(shù)的Fastformer模型相比，使用query-value參數(shù)共享可以獲得類似或略好的性能。因此可以通過共享query和value轉(zhuǎn)換矩陣來減少參數(shù)大小。

此外，頭部參數(shù)共享將導(dǎo)致顯著的性能下降。這是因為不同的注意頭需要捕捉不同的上下文模式，而共享它們的參數(shù)對上下文建模是不利的，采用分層共享方法可以進一步提高模型的性能，因為不同層之間的參數(shù)共享可以緩解過擬合的風(fēng)險。

參考資料：

https://arxiv.org/abs/2108.09084

一年六篇頂會的清華大神提出Fastformer：史上最快、效果最好的Transformer

新智元報道

【新智元導(dǎo)讀】Transformer模型好是好，可惜太慢了！最近一位清華大神在arxiv上傳了一篇論文，提出新模型Fastformer，線性時間復(fù)雜度，訓(xùn)練和推理效率史上最快，還順手在排行榜刷了個sota。

一年六篇頂會的清華大神提出Fastformer：史上最快、效果最好的Transformer

【新智元導(dǎo)讀】Transformer模型好是好，可惜太慢了！最近一位清華大神在arxiv上傳了一篇論文，提出新模型Fastformer，線性時間復(fù)雜度，訓(xùn)練和推理效率史上最快，還順手在排行榜刷了個sota。