萬能 Transformer,你應(yīng)該知道的一切

極市導(dǎo)讀
?本文詳細(xì)介紹了Transformer結(jié)構(gòu)(Encoder/Decoder)、Efficient Transformers、Language models以及Transformer預(yù)訓(xùn)練技術(shù)等。?>>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿
寫在前面:自 2017 年 Transformer 技術(shù)出現(xiàn)以來,便在 NLP、CV、語音、生物、化學(xué)等領(lǐng)域引起了諸多進(jìn)展。知源月旦團(tuán)隊(duì)期望通過“Transformer+X” 梳理清 Transformer 技術(shù)的發(fā)展脈絡(luò),以及其在各領(lǐng)域中的應(yīng)用進(jìn)展,以期推動 Transformer 技術(shù)在更多領(lǐng)域中的應(yīng)用。限于篇幅,在這篇推文中,我們先介紹 Transformer 的基本知識,以及其在 NLP 領(lǐng)域的研究進(jìn)展;后續(xù)我們將介紹 Transformer + CV /?語音/生物/化學(xué)等的研究。
01
1.1 Transformer 結(jié)構(gòu)









],同一個 Encoder 或者 Decoder 中的不同x共享?
,
,不同 Encoder 和 Decoder 之間不共享參數(shù)。
,轉(zhuǎn)換成
,這樣進(jìn)入激活函數(shù)的輸入將不受內(nèi)部協(xié)變量影響,加快了模型訓(xùn)練的收斂速度[11]。


1.2 Efficient Transformers


1.3 Language models
02
2.1?預(yù)訓(xùn)練技術(shù)



2.2 方法介紹



表示詞嵌入矩陣,
表示位置嵌入矩陣。
為預(yù)訓(xùn)練階段最后一個詞的輸出 。



Fixed Patterns(固定模式):將視野限定為固定的預(yù)定義模式,例如局部窗口、固定步幅塊,用于簡化注意力矩陣;
Combination of Patterns(組合模式):通過組合兩個或多個不同的模式來提高效率;
Learnable Patterns(可學(xué)習(xí)模式):以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)訪問模式,關(guān)鍵在于確定 Token 相關(guān)性。
Memory(內(nèi)存):利用可以一次訪問多個 Token 的內(nèi)存模塊,例如全局存儲器。
Low Rank(低秩):通過利用自注意力矩陣的低秩近似,來提高效率。
Kernels(內(nèi)核):通過內(nèi)核化的方式提高效率,其中核是注意力矩陣的近似,可視為低秩方法的一種。
Recurrence(遞歸):利用遞歸,連接矩陣分塊法中的各個塊,最終提高效率。
推薦閱讀
搞懂Transformer結(jié)構(gòu),看這篇PyTorch實(shí)現(xiàn)就夠了
2020 谷歌最新研究綜述:Efficient Transformers: A Survey
3W字長文帶你輕松入門視覺Transformer

