<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          顛覆大規(guī)模預(yù)訓(xùn)練!清華楊植麟組提出全新NLP學(xué)習(xí)框架TLM,學(xué)習(xí)效率×100倍

          共 4045字,需瀏覽 9分鐘

           ·

          2021-11-26 16:34



          ??新智元報(bào)道??

          作者:yxc

          編輯:好困

          【新智元導(dǎo)讀】近期,清華大學(xué)團(tuán)隊(duì)提出一種無(wú)需預(yù)訓(xùn)練的高效NLP學(xué)習(xí)框架,在僅使用了1%的算力和1%的訓(xùn)練語(yǔ)料的條件下,在眾多NLP任務(wù)上實(shí)現(xiàn)了比肩甚至超越預(yù)訓(xùn)練模型的性能。這一研究結(jié)果對(duì)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的必要性提出了質(zhì)疑:我們真的需要大規(guī)模預(yù)訓(xùn)練來(lái)達(dá)到最好的效果嗎?


          基于預(yù)訓(xùn)練語(yǔ)言模型(PLM)的方法在自然語(yǔ)言處理領(lǐng)域蓬勃發(fā)展,已經(jīng)在多種標(biāo)準(zhǔn)自然語(yǔ)言任務(wù)上實(shí)現(xiàn)了最優(yōu)(SOTA)性能。強(qiáng)大的性能使其成為解決NLP任務(wù)的標(biāo)準(zhǔn)方法之一。

          盡管如此,預(yù)訓(xùn)練嚴(yán)重依賴大量的計(jì)算資源的現(xiàn)狀,導(dǎo)致只有極少數(shù)資源充足的機(jī)構(gòu)或者組織有能力開(kāi)展對(duì)于預(yù)訓(xùn)練的探索,多數(shù)研究者則轉(zhuǎn)向所需資源較少的下游微調(diào)算法的研究。然而,微調(diào)算法性能的上限也是很大程度受到預(yù)訓(xùn)練模型性能的約束。

          這種「昂貴而集權(quán)」的研究模式限制了平民研究者們?yōu)镹LP社區(qū)做出貢獻(xiàn)的邊界,也極大制約了該領(lǐng)域的長(zhǎng)期發(fā)展。

          清華大學(xué)的研究者們針對(duì)這一問(wèn)題提出的一種全新的高效學(xué)習(xí)框架:「TLM(Task-driven Language Modeling)」。


          論文地址:https://arxiv.org/pdf/2111.04130.pdf

          項(xiàng)目地址:https://github.com/yaoxingcheng/TLM


          TLM框架無(wú)需進(jìn)行大規(guī)模預(yù)訓(xùn)練,僅需要相較于傳統(tǒng)預(yù)訓(xùn)練模型(例如 RoBERTa)約 1% 的訓(xùn)練時(shí)間與 1% 的語(yǔ)料,?即可在眾多任務(wù)上實(shí)現(xiàn)和預(yù)訓(xùn)練模型比肩甚至更好的性能。



          作者希望TLM的提出能夠引發(fā)NLP研究者們對(duì)現(xiàn)有預(yù)訓(xùn)練-微調(diào)范式的重新審視,并促進(jìn)NLP民主化的進(jìn)程,加速NLP領(lǐng)域的進(jìn)一步發(fā)展。


          語(yǔ)言模型也可以「臨時(shí)抱佛腳」?


          任務(wù)驅(qū)動(dòng)的語(yǔ)言建模


          我們有這樣的觀察:人類可以以有限的時(shí)間和精力高效掌握某種技能,這整個(gè)過(guò)程并不需要掌握所有可能的知識(shí)和信息,而是只需要對(duì)核心的部分有針對(duì)性地學(xué)習(xí)。


          例如,考生考試前臨時(shí)抱佛腳,僅需要突擊學(xué)習(xí)重點(diǎn)內(nèi)容即可應(yīng)對(duì)考試。受到這一現(xiàn)象的啟發(fā),我們不禁發(fā)問(wèn):預(yù)訓(xùn)練語(yǔ)言模型可以「臨時(shí)抱佛腳」嗎?


          傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)方法與TLM框架之間的比較


          類似地,作者提出假設(shè):預(yù)訓(xùn)練語(yǔ)言模型在特定任務(wù)上的性能,僅受益于大規(guī)模通用語(yǔ)料中僅與任務(wù)相關(guān)的部分,而不需要大規(guī)模的全量數(shù)據(jù)。


          該方法主要包含兩個(gè)階段:


          1. 為了從大規(guī)模通用語(yǔ)料中抽取關(guān)鍵數(shù)據(jù),TLM首先以任務(wù)數(shù)據(jù)作為查詢,對(duì)通用語(yǔ)料庫(kù)進(jìn)行相似數(shù)據(jù)的召回;

          2. TLM基于任務(wù)數(shù)據(jù)和召回?cái)?shù)據(jù),從零開(kāi)始進(jìn)行基于任務(wù)目標(biāo)和語(yǔ)言建模目標(biāo)的聯(lián)合訓(xùn)練。


          基于任務(wù)數(shù)據(jù)的語(yǔ)料召回


          首先根據(jù)任務(wù)數(shù)據(jù),從大規(guī)模通用語(yǔ)料中抽取相關(guān)數(shù)據(jù)。


          相比于大多數(shù)文本匹配算法傾向于采用稠密特征,本文作者另辟蹊徑,采用了使用基于稀疏特征的BM25算法[2] 作為召回算法,它簡(jiǎn)單高效,并且不依賴于下游任務(wù)給出的監(jiān)督信號(hào)。


          同時(shí)該算法完全不依賴預(yù)訓(xùn)練模型,從而可以公平地與傳統(tǒng)的大規(guī)模預(yù)訓(xùn)練進(jìn)行比較。


          自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練


          TLM基于篩選后的通用預(yù)料數(shù)據(jù)和任務(wù)數(shù)據(jù),進(jìn)行了自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練。?


          作者采用了傳統(tǒng)的掩碼語(yǔ)言模型(Masked Language Modeling)作為自監(jiān)督訓(xùn)練任務(wù)。


          訓(xùn)練的損失函數(shù)


          實(shí)驗(yàn)結(jié)果:小資源比肩大規(guī)模預(yù)訓(xùn)練語(yǔ)言


          主要結(jié)果


          作者在8個(gè)自然語(yǔ)言分類任務(wù)上,從三個(gè)不同的規(guī)模分別開(kāi)展了對(duì)比實(shí)驗(yàn)。這些任務(wù)涵蓋了生物醫(yī)藥、新聞、評(píng)論、計(jì)算機(jī)等領(lǐng)域,并且覆蓋了情感分類、實(shí)體關(guān)系抽取、話題分類等任務(wù)類型。


          TLM在三種不同訓(xùn)練規(guī)模下的評(píng)估結(jié)果


          和傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)范式相比,TLM在多領(lǐng)域多任務(wù)類型的數(shù)據(jù)集上實(shí)現(xiàn)了大致相當(dāng)甚至更優(yōu)的結(jié)果。


          而更大的優(yōu)勢(shì)在于,TLM實(shí)現(xiàn)該相當(dāng)甚至更優(yōu)的結(jié)果所使用的資源(包括計(jì)算量FLOPs和使用的訓(xùn)練數(shù)據(jù)量),相較于對(duì)應(yīng)預(yù)訓(xùn)練-微調(diào)基準(zhǔn)的資源使用量極大減少約兩個(gè)數(shù)量級(jí)規(guī)模。


          參數(shù)高效性分析


          為了探究TLM高效性更本質(zhì)的來(lái)源,作者們對(duì)模型的每個(gè)注意力頭所輸出的注意力結(jié)果進(jìn)行了可視化分析。


          已有研究[1]指出,呈現(xiàn)「對(duì)角線」模式的注意力結(jié)果(如紅框所示)是對(duì)模型性能影響的關(guān)鍵因素,因?yàn)椤笇?duì)角線」模式把注意力關(guān)注于此前或者此后的符號(hào)(token)上,從而可以捕捉和建模相鄰符號(hào)之間的關(guān)聯(lián)性。


          注意力結(jié)果可視化分析


          從可視化結(jié)果可以觀察到,TLM中包含了更多「對(duì)角線」模式,即有更多的符號(hào)位置都將注意力分散賦予了其相鄰的其他符號(hào)。


          對(duì)比之下,原始的大規(guī)模預(yù)訓(xùn)練模型(BERT-Base和RoBERTa-Base)「對(duì)角線」模式較少,而「垂直」模式更多(如灰色所示),這意味著更多符號(hào)位置將注意力關(guān)注到[CLS]、[SEP]或者標(biāo)點(diǎn)符號(hào)這種不具備語(yǔ)法或者語(yǔ)義信息的符號(hào)上。


          可以看出,TLM的參數(shù)高效性要顯著優(yōu)于預(yù)訓(xùn)練語(yǔ)言模型,任務(wù)驅(qū)動(dòng)使得TLM針對(duì)下游任務(wù)學(xué)習(xí)到了更豐富的語(yǔ)法語(yǔ)義信息。


          消融實(shí)驗(yàn)


          此外作者還分別在數(shù)據(jù)選取策略、數(shù)據(jù)召回?cái)?shù)量、多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重等多個(gè)角度進(jìn)行了消融實(shí)驗(yàn)探究,以此考察模型性能的穩(wěn)定性和最優(yōu)配置。


          數(shù)據(jù)選取策略消融實(shí)驗(yàn)結(jié)果


          在數(shù)據(jù)召回策略上,相比起同等數(shù)量的隨機(jī)選取,基于稀疏特征的BM25算法最終結(jié)果有顯著提升(約1-4個(gè)點(diǎn)),證明其在召回和任務(wù)數(shù)據(jù)相似的通用數(shù)據(jù)上的有效性。


          最優(yōu)數(shù)據(jù)召回量消融實(shí)驗(yàn)結(jié)果


          召回通用數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ1)和任務(wù)數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ2)消融實(shí)驗(yàn)結(jié)果


          對(duì)于最優(yōu)數(shù)據(jù)召回量和多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重兩因素的消融實(shí)驗(yàn)結(jié)果展示出一致的結(jié)論:即兩因素的選擇顯示出和任務(wù)數(shù)據(jù)規(guī)模強(qiáng)相關(guān)性:


          1. 對(duì)于數(shù)據(jù)規(guī)模較大的任務(wù)(如AGNews,RCT),它需要召回相對(duì)更少的相似通用數(shù)據(jù),同時(shí)應(yīng)賦予任務(wù)數(shù)據(jù)目標(biāo)更大的比重;


          2. 對(duì)于數(shù)據(jù)規(guī)模較小的任務(wù)(如ChemProt,SciERC),它需要召回相對(duì)更多的通用數(shù)據(jù)提供充足信息,同時(shí)賦予召回通用數(shù)據(jù)上的無(wú)監(jiān)督訓(xùn)練目標(biāo)更大的權(quán)重。


          TLM vs PLM:優(yōu)勢(shì)如何?


          總結(jié)來(lái)說(shuō),PLM以極高的成本學(xué)習(xí)盡可能多的任務(wù)無(wú)關(guān)的知識(shí),而TLM以非常低的成本針對(duì)每個(gè)任務(wù)學(xué)習(xí)相關(guān)知識(shí)。


          TLM和PLM的對(duì)比


          具體來(lái)說(shuō),TLM和PLM相比還具有如下特點(diǎn):


          1. 民主化


          TLM的提出打破了NLP研究受限于大規(guī)模計(jì)算資源,以及只能由極少數(shù)機(jī)構(gòu)和人員開(kāi)展相關(guān)探索的現(xiàn)狀。基于TLM框架,大多數(shù)NLP研究者都可以以較低代價(jià)以及較高效率,對(duì)目前最先進(jìn)的解決方案做更進(jìn)一步的自由探索和研究。


          2. 靈活性


          相比PLM,TLM允許研究者以更加靈活的方式根據(jù)具體的任務(wù)自定義標(biāo)記策略、數(shù)據(jù)表示、序列長(zhǎng)度、超參數(shù)等等。這使得進(jìn)一步提升性能和效率成為可能。


          3. 高效性


          如實(shí)驗(yàn)結(jié)果所示,TLM的每個(gè)任務(wù)上的FLOPs消耗顯著少于PLM。TLM和PLM分別適用不同情況——當(dāng)面臨少數(shù)目標(biāo)任務(wù)或者領(lǐng)域特定的稀有任務(wù)(例如,NLP科研工作開(kāi)展過(guò)程對(duì)少數(shù)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和研究;工業(yè)界面臨極其特殊領(lǐng)域問(wèn)題的解決),TLM是非常高效的選擇;當(dāng)需要一次性解決大量相似且常見(jiàn)任務(wù)時(shí)(例如,公司需要構(gòu)建統(tǒng)一平臺(tái)為多方提供相似服務(wù)),PLM的可重復(fù)利用使其仍然具備優(yōu)勢(shì)。


          4. 通用性


          PLM學(xué)習(xí)任務(wù)無(wú)關(guān)的一般性表示,即強(qiáng)調(diào)通用性,而TLM通過(guò)學(xué)習(xí)任務(wù)相關(guān)的表示一定程度犧牲通用性換取更高的效率。當(dāng)然,也可以將PLM和TLM結(jié)合從而實(shí)現(xiàn)通用性和效率之間更好的權(quán)衡。


          總結(jié)展望


          TLM的提出給自然語(yǔ)言處理領(lǐng)域帶來(lái)「新面貌」,它使得現(xiàn)有NLP的研究可以脫離代價(jià)高昂的預(yù)訓(xùn)練,也使得更多獨(dú)立NLP研究者們可以在更廣闊的空間進(jìn)行自由探索成為可能。


          未來(lái)可以進(jìn)一步開(kāi)展更多基于TLM框架的研究,例如:如何進(jìn)一步提升TLM的通用性和可遷移性;如何更加經(jīng)濟(jì)地達(dá)到更大規(guī)模預(yù)訓(xùn)練模型的表現(xiàn)效果等等。


          作者介紹


          論文一作為清華大學(xué)姚班大四本科生姚星丞,他也是今年大火的EMNLP接收論文SimCSE的共同一作。


          論文地址:https://arxiv.org/pdf/2104.08821.pdf


          論文的通訊作者為清華大學(xué)交叉信息院助理教授、Recurrent AI聯(lián)合創(chuàng)始人楊植麟,曾做出Transformer-XL、XLNet、HotpotQA等諸多NLP領(lǐng)域大受歡迎的工作。


          論文的另外兩名作者鄭亞男和楊小驄也來(lái)自清華大學(xué),其中鄭亞男是今年年初備受矚目的P-tuning(GPT Understands, Too)的共同一作。


          論文地址:https://arxiv.org/pdf/2103.10385.pdf


          參考資料:

          [1] Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, and Ivan Titov. 2019. Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5797–5808, Florence, Italy. Association for Computational Linguistics.

          [2] Stephen E. Robertson and Hugo Zaragoza. 2009. The probabilistic relevance framework: BM25 and beyond. Found. Trends Inf. Retr., 3(4):333–389.


          瀏覽 75
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本日日操 | 日韩黄色免费 | 青青草视频免费观看 | 正在播放蜜臀av 正在播放做爱内射 | 国产成人三级在线观看视频 |