<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CV之后,純MLP架構(gòu)又來搞NLP了,性能媲美預訓練大模型

          共 5208字,需瀏覽 11分鐘

           ·

          2022-02-16 09:09

          視學算法報道
          編輯:陳萍、小舟
          搞不起大模型,試一下超高性能的純 MLP 架構(gòu)?
          去年來自谷歌大腦的研究團隊在網(wǎng)絡(luò)架構(gòu)設(shè)計方面挖出新坑,提出 MLP-Mixer ,這是一個純 MLP 構(gòu)建的視覺架構(gòu)。該架構(gòu)無需卷積、注意力機制,僅需 MLP,在 ImageNet 數(shù)據(jù)集上就實現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn)。

          之后清華大學等機構(gòu)的研究者先后將純 MLP 用于構(gòu)建視覺架構(gòu)和新的注意力機制,這些研究將 CV 的研究重心重新指向 MLP。

          眾多研究者紛紛感嘆:CV 領(lǐng)域網(wǎng)絡(luò)架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP,真簡直是一場 AI 領(lǐng)域的「文藝復興」。

          時隔不到一年,來自 IBM Research 的研究團隊近日又提出了 pNLP-Mixer,將 MLP-Mixer 應(yīng)用于自然語言處理(NLP)任務(wù)。


          論文地址:https://arxiv.org/pdf/2202.04350.pdf

          大型預訓練語言模型極大地改變了 NLP 的格局,如今它們成為處理各種 NLP 任務(wù)的首選框架。但是,由于內(nèi)存占用和推理成本,在生產(chǎn)環(huán)境中使用這些模型(無論是在云環(huán)境還是在邊緣環(huán)境)仍然是一個挑戰(zhàn)。

          研究者開始提出可替代方案,他們最近對高效 NLP 的研究表明,小型權(quán)重高效(weight-efficient)模型可以以很低的成本達到具有競爭力的性能。IBM Research 提出的 pNLP-Mixer,是一種可用于 NLP 任務(wù)的基于投影(projection)的 MLP-Mixer 模型,它通過一個全新的投影層(projection layer)實現(xiàn)了高權(quán)重效率。

          該研究在兩個多語言語義分析數(shù)據(jù)集 MTOP 和 multiATIS 上對模型進行了評估。結(jié)果表明,在 MTOP 數(shù)據(jù)集上,pNLP-Mixer 達到了與 mBERT 媲美的性能,而后者有 38 倍多的參數(shù),此外,pNLP-Mixer 還優(yōu)于小模型 pQRNN,而后者參數(shù)是前者的 3 倍。在長序列分類任務(wù)中,pNLP-Mixer 在沒有進行預訓練的情況下比 RoBERTa 表現(xiàn)更好,后者的參數(shù)是 pNLP-Mixer 的 100 倍。

          pNLP-Mixer 架構(gòu)

          作為一種從頭開始設(shè)計的高效架構(gòu),pNLP-Mixer 適用于兩種邊緣情況,即內(nèi)存和延遲受限,并作為 NLP pipeline 的主干網(wǎng)絡(luò)而存在。


          圖 1 描述了 pNLP-Mixer 模型的架構(gòu),是基于投影的模型,不像基于 transformer 的模型那樣可以存儲大型嵌入表。pNLP-Mixer 使用投影層,該投影層使用不可訓練的哈希函數(shù)從單個 token 中捕獲詞法知識。這個投影層可以被看作是從輸入文本中生成表征的特征提取器。一旦輸入特征被計算出來,它們就會被送入一個稱為瓶頸層(bottleneck layer)的可訓練線性層。其中瓶頸層的輸出是標準 MLP- mixer 架構(gòu)(Tolstikhin et al., 2021)的一系列 MLP 塊的輸入。

          使用全 MLP 架構(gòu)進行語言處理具有一些優(yōu)點。與基于注意力的模型相比,MLP-Mixer 可以捕獲長距離依賴關(guān)系,而不會在序列長度上引入二次成本。此外,僅使用 MLP,模型不僅實現(xiàn)起來簡單,而且在從手機到服務(wù)器級推理加速器的各種設(shè)備中都具有開箱即用的硬件加速功能。

          這項研究表明,在 NLP 任務(wù)中,像 MLP-Mixer 這樣的簡單模型可以作為基于 transformer 模型的有效替代方案,即使在不使用大型嵌入表的環(huán)境中也是如此。這其中的關(guān)鍵是模型提供了高質(zhì)量的輸入特征。

          投影層

          投影層是基于局部敏感哈希(LSH),從文本中創(chuàng)建表征。雖然這一概念在其他現(xiàn)有的投影中是常見的(例如 pQRNN (Kaliamoorthi et al., 2021)),但該研究提出的投影方法卻是全新的。MinHash 因計算簡單被用作哈希函數(shù),并依靠子詞 tokenization 來確定哈希輸入。子詞 tokenization 通常在 transformer 模型中使用,它確保了任何字符串都可以被表征為子詞單元的組合,即不存在詞表外的詞。在該研究的語境中,使用子詞 tokenizer 有兩個主要優(yōu)點:

          通過訓練新的 tokenizer 或使用可用的預訓練語言模型中的詞匯來擴充語言知識;?
          每個子詞單元的表征可以被緩存以降低推理成本。


          投影層通過復用詞匯表 V 的單個子詞單元的 fingerprint 來計算每個輸入 token t 的 MinHash fingerprint F^t。fingerprint F ∈ N^n 是由 n 個正整數(shù)組成的數(shù)組(F_0 到 F_(n-1) ) ,使用 n 個不同的哈希函數(shù) h_0(x) 到 h_n-1(x) 將字符串映射成正整數(shù)來進行計算。

          MLP-Mixer?

          MLP-Mixer 是一個簡單的架構(gòu),僅由 mixer 塊組成,每個塊有兩個多層感知器 (MLP),以換位操作(transposition operation)進行交錯。第一個 MLP 輸出的換位給到第二個 MLP,然后對序列維度進行操作,從而有效地混合了 token 之間的信息。此外,MLP-Mixer 遵循了最初的架構(gòu)設(shè)計,使用了跳躍連接、層標準化和 GELU 非線性。

          在該方法中,投影層產(chǎn)生的矩陣 C∈R^(2w+1)m×s 將通過一個瓶頸層,即一個線性層,該線性層輸出矩陣 B∈R^b×s,其中 B 為瓶頸大小,s 為最大序列長度。這個矩陣 B 是 MLP-Mixer 模型的輸入,它反過來產(chǎn)生與 B 相同維度的輸出表征 O∈R^(b×s)。在輸出 O 之上應(yīng)用分類頭以生成實際預測。在語義解析的情況下,這個分類頭是應(yīng)用于每個 token 的線性層,而對于分類任務(wù),該方法使用注意力池化。

          實驗

          在評估模型的最終性能之前,該研究徹底分析了所提架構(gòu)。本節(jié)的實驗是在英文 MTOP 的驗證集上進行的,報告的指標是最佳 epoch 的精確匹配準確率(exact match accuracy)。該研究使用具有 2 層的 pNLP-Mixer 作為基礎(chǔ)模型,瓶頸和隱藏大小為 256,輸入序列長度為 64,token 特征大小固定為 1024,窗口大小為 1,并訓練 80 個 epoch,學習率為 5e ^-4 、batch 大小為 256。

          投影比較

          首先,該研究比較了不同特征提取策略對性能的影響,包括:

          • BERT 嵌入

          • 二進制

          • TSP

          • MinHash

          • SimHash

          下表 1 給出了基模型獲得的投影分數(shù)。結(jié)果表明,BERT 嵌入的性能極差,這是因為 BERT 的主要優(yōu)勢之一是它產(chǎn)生上下文嵌入,即包含來自周圍上下文的信息的嵌入,這里需要單獨嵌入每個 token。關(guān)于基于哈希的投影,它們都在相同的值范圍內(nèi)達到分數(shù)。然而,表現(xiàn)最好的投影 MinHash,精確匹配準確率為 80.8%,與最差的投影 TSP 相比,其得分為 77.6% ,它們之間存在相當大的差異。超過 3% 的差異凸顯了仔細設(shè)計投影層的重要性,并證明了進一步研究投影算法的努力。鑒于這些結(jié)果,在剩下的實驗中,該研究僅將 MinHash 視為投影層。


          模型比較

          已有結(jié)果表明,MinHash 投影提供了強大的語言表征。下一個問題是 MLP-Mixer 是否是處理這種表征的最佳架構(gòu)。為了研究這一點,該研究首先考慮一個基線,其中 MLP-Mixer 被移除,瓶頸層的輸出直接傳遞給分類頭。在這里,研究者考慮兩個不同的投影層,一個窗口大小為 1,另一個窗口大小為 4。該研究將 MLP-Mixer 與其他兩種架構(gòu)進行比較,方法是保持相同的投影、瓶頸層和分類頭,并用 LSTM 和具有相似數(shù)量參數(shù)的 transformer 編碼器專門替換 MLP-Mixer。

          表 2 表明簡單地移除 MLP-Mixer 并僅依賴投影會導致性能顯著下降。特別是,使用窗口大小為 1 的投影將參數(shù)數(shù)量減少到 820K,但代價是性能下降超過 15 個點。另一方面,大型投影層導致參數(shù)數(shù)量翻倍,而精確匹配準確率僅達到 76.5%,即比 MLP-Mixer 低 4.3%。從替代模型來看,LSTM 的性能明顯低于 MLP-Mixer,但使用 180 萬個參數(shù),即多出 50%,精確匹配準確率較低(73.9%)。Transformer 模型的參數(shù)數(shù)量與 MLPMixer (1.2M) 大致相同,得分低 1.4%。最后一個結(jié)果是顯著的:對于相同數(shù)量的參數(shù),MLPMixer 優(yōu)于 transformer,同時具有線性復雜性依賴于輸入長度,而不是二次。總體而言,該評估表明 MLP-Mixer 是一種用于處理投影輸出的重量效率高的架構(gòu),即它比具有較少參數(shù)的替代方案具有更高的性能。


          架構(gòu)研究

          該研究對 pNLP-Mixer 模型進行了廣泛的架構(gòu)探索,以確定不同超參數(shù)對下游性能的影響,研究范圍包括投影超參數(shù)和 MLP-Mixer 超參數(shù)。對于投影,研究包括 token 特征大小、哈希數(shù)和窗口大?。欢?MLP-Mixer 研究了瓶頸大?。╞ottleneck size)和層數(shù)。使用的學習率為 5e^?4,batch 大小為 256,隱藏大小為 256。表 3 報告了每個配置的精確匹配準確率和參數(shù)數(shù)量。


          考慮到 MLP mixer,將瓶頸大?。╞ottleneck sizes)增加到 512 會略微提高性能,而當使用 4 層時,它會達到與 2 層相似的值。然而,這些超參數(shù)并不獨立于投影層:較大的投影可能需要較大的 MLP-Mixer 來處理所有的信息。因此,表 4 研究了投影大小和 MLP-Mixer 之間的關(guān)系。

          實驗報告了兩個較大模型和兩個較小模型的結(jié)果,由結(jié)果可得較大的模型具有更大的特征和瓶頸大小,實驗還表明 4 層達到了所有研究模型的最佳性能。另一方面,其中一個小型模型僅用 200K 參數(shù)就達到了 76.9% 的精確匹配。


          表 5 結(jié)果表明,大型語言模型 XLM-R 和 mBERT 獲得了最高分。值得注意的是,從較小的替代方案來看,pNLPMixer X-LARGE 只有 4.4M 參數(shù), mBERT 參數(shù)量達 170M,平均精確匹配準確率僅比 mBERT 和 XLM-R 低 2 和 3 個點。LARGE 模型具有與 pQRNN 相似的大小,比 pQRNN 精確匹配準確率高近 3%,比精餾后的 pQRNN 高 0.8%。


          表 6 是在 multiATIS 數(shù)據(jù)集上的評估結(jié)果。在這里,pQRNN 獲得了最高的 intent 準確率,甚至比 mBERT 高出 1.8%。在 pNLP-Mixer 系列中,我們看到更大的尺寸并不對應(yīng)更好的性能;由于 ATIS 查詢中使用的詞匯相對統(tǒng)一和簡單,因此表達能力更強的模型不一定更好。事實上,BASE 模型在 pNLP-Mixers 中達到最高分,達到 92.1%,僅比只有 1.2M 參數(shù)的 mBERT 低 0.5%,但參數(shù)只有 pQRNN 參數(shù)的 60%。較小的 pNLP-Mixer 模型 SMALL 和 X-SMALL 分別獲得了 91.8% 和 90.0% 的競爭性能,而參數(shù)都非常小。


          長序列實驗

          表 7 顯示,在 IMDB 中,RoBERTa 和 Longformer 的性能明顯優(yōu)于 pNLP-Mixer,Longformer 的準確率達到 95.7%,而最好的 pNLP-Mixer 只有 82.9%。然而,在 Hyperpartisan 任務(wù)中,Longformer 仍然是最好的模型,而 pNLP-Mixers 的表現(xiàn)優(yōu)于 RoBERTa, BASE 模型達到 90.6 F1,即高出 3.2 分。


          微型 pNLP-Mixer 模型的參數(shù)分別是 Longformer 和 RoBERTa 參數(shù)的 1/ 120 倍和 1/ 100 ,在 Hyperpartisan 任務(wù)中獲得了具有競爭力(甚至優(yōu)于 RoBERTa)的結(jié)果,而無需任何預訓練或超參數(shù)調(diào)整。然而,pNLP-Mixer 在 IMDB 上的性能較低??偠灾?,這個結(jié)果提出了一個問題,即具有預訓練的大型 pNLP-Mixer 是否可以成為大型 Transformer 模型的輕量級替代品。


          ??THE END?

          轉(zhuǎn)載請聯(lián)系原公眾號獲得授權(quán)

          投稿或?qū)で髨蟮溃篶[email protected]


          點個在看 paper不斷!

          瀏覽 20
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  我要看免费A片 | 欧美日本黄色一级视频 | 蜜桃视频久久一区免费观看入口 | 最新人妻视频 | 大大大香蕉伊人 |