<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【關(guān)于自訓(xùn)練 + 預(yù)訓(xùn)練 = 更好的自然語(yǔ)言理解模型 】 那些的你不知道的事

          共 2700字,需瀏覽 6分鐘

           ·

          2021-02-22 07:40

          作者:楊夕

          個(gè)人github:https://github.com/km1994/nlp_paper_study/tree/master/bert_study/SelfTrainingImprovesPreTraining

          論文標(biāo)題:Self-training Improves Pre-training for Natural Language Understanding

          論文地址:https://arxiv.org/abs/2010.02194

          個(gè)人介紹:大佬們好,我叫楊夕,該項(xiàng)目主要是本人在研讀頂會(huì)論文和復(fù)現(xiàn)經(jīng)典論文過(guò)程中,所見(jiàn)、所思、所想、所聞,可能存在一些理解錯(cuò)誤,希望大佬們多多指正。

          【注:手機(jī)閱讀可能圖片打不開(kāi)?。?!】

          目錄

          • 【關(guān)于自訓(xùn)練 + 預(yù)訓(xùn)練 = 更好的自然語(yǔ)言理解模型 】 那些的你不知道的事

            • 目錄

            • 摘要

            • 前期知識(shí)

              • 預(yù)訓(xùn)練

              • 自訓(xùn)練

              • 區(qū)別

            • 問(wèn)題提出

            • 論文方法

            • 論文貢獻(xiàn)

            • 論文思路

              • 自訓(xùn)練處理流程

            • 參考

          一、摘要

          Unsupervised pre-training has led to much recent progress in natural language understanding. In this paper, we study self-training as another way to leverage unlabeled data through semi-supervised learning. To obtain additional data for a specific task, we introduce SentAugment, a data augmentation method which computes task-specific query embeddings from labeled data to retrieve sentences from a bank of billions of unlabeled sentences crawled from the web. Unlike previous semi-supervised methods, our approach does not require in domain unlabeled data and is therefore more generally applicable. Experiments show that self-training is complementary tostrong RoBERTa baselines on a variety oftasks. Our augmentation approach leads to scalable and effective self-training with improvements of up to 2.6% on standard text classification benchmarks. Finally, we also show strong gains on knowledge-distillation and few-shot learning.

          無(wú)監(jiān)督的預(yù)訓(xùn)練導(dǎo)致自然語(yǔ)言理解方面的最新進(jìn)展。

          在本文中,我們將自訓(xùn)練作為通過(guò)半監(jiān)督學(xué)習(xí)利用未標(biāo)記數(shù)據(jù)的另一種方法。

          為了獲得針對(duì)特定任務(wù)的其他數(shù)據(jù),我們引入了SentAugment,這是一種數(shù)據(jù)增強(qiáng)方法,可從標(biāo)記的數(shù)據(jù)計(jì)算特定于任務(wù)的查詢嵌入,以從網(wǎng)上爬行的數(shù)十億個(gè)未標(biāo)記的句子中檢索句子。

          與以前的半監(jiān)督方法不同,我們的方法不需要域內(nèi)未標(biāo)記的數(shù)據(jù),因此更通用。

          實(shí)驗(yàn)表明,自訓(xùn)練是在各種任務(wù)上的強(qiáng)RoBERTa基線的補(bǔ)充。我們的擴(kuò)充方法可實(shí)現(xiàn)可擴(kuò)展且有效的自我訓(xùn)練,并在標(biāo)準(zhǔn)文本分類基準(zhǔn)上提高了2.6%。最后,我們還顯示出在知識(shí)提煉和少量學(xué)習(xí)方面的巨大收獲。

          二、前期知識(shí)

          2.1 預(yù)訓(xùn)練

          預(yù)訓(xùn)練(Pre-training)從廣義上來(lái)講,是指先在較大規(guī)模的數(shù)據(jù)上對(duì)模型訓(xùn)練一波,然后再在具體的下游任務(wù)數(shù)據(jù)中微調(diào)。大多數(shù)情況下,預(yù)訓(xùn)練的含義都比較狹窄:在大規(guī)模無(wú)標(biāo)注語(yǔ)料上,用自監(jiān)督的方式訓(xùn)練模型。這里的自監(jiān)督方法一般指的是語(yǔ)言模型。

          2.2 自訓(xùn)練

          自訓(xùn)練是說(shuō)有一個(gè)Teacher模型Ft和一個(gè)Student模型Fs,首先在標(biāo)注數(shù)據(jù)上訓(xùn)練Ft,然后用它對(duì)大規(guī)模無(wú)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注,把得到的結(jié)果當(dāng)做偽標(biāo)注數(shù)據(jù)去訓(xùn)練Fs。

          2.3 區(qū)別

          預(yù)訓(xùn)練和自訓(xùn)練都用到了大規(guī)模無(wú)標(biāo)注的數(shù)據(jù),只是二者的處理過(guò)程不同。而且,其中非常重要的一點(diǎn)是,預(yù)訓(xùn)練始終對(duì)針對(duì)一個(gè)模型進(jìn)行操作,而自訓(xùn)練卻用到了兩個(gè)模型,前者是直接從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí),而后者是間接地從數(shù)據(jù)中學(xué)習(xí)。

          三、問(wèn)題提出

          • 問(wèn)題一: do pre-training and self-training capture the same information, or are they complementary?

          • 問(wèn)題二: how can we obtain large amounts of unannotated data from specific domains?

          四、論文方法

          • 問(wèn)題二解決方法:提出 SentAugment 方法 從 web 上獲取有用數(shù)據(jù);

          • 問(wèn)題一解決方法:使用標(biāo)記的任務(wù)數(shù)據(jù)訓(xùn)練一個(gè) teacher 模型,然后用它對(duì)檢索到的未標(biāo)注句子進(jìn)行標(biāo)注,并基于這個(gè)合成數(shù)據(jù)集訓(xùn)練最終的模型。

          五、論文貢獻(xiàn)

          • 結(jié)合自訓(xùn)練與預(yù)訓(xùn)練,比單純的預(yù)訓(xùn)練取得了大幅度的效果提升;

          • 為了使偽標(biāo)注數(shù)據(jù)更加契合下游的具體任務(wù),提出了SentAugment,一種特定領(lǐng)域的數(shù)據(jù)抽取方法,減少通用語(yǔ)料造成的噪聲干擾;

          • 在知識(shí)蒸餾和小樣本學(xué)習(xí)任務(wù)上也取得了突出的結(jié)果,證明自訓(xùn)練+預(yù)訓(xùn)練的優(yōu)越性。

          六論文思路

          6.1 自訓(xùn)練處理流程

          1. 將一個(gè)預(yù)訓(xùn)練模型(本文使用RoBERTa_Large)在標(biāo)注數(shù)據(jù)上訓(xùn)練,作為教師模型Ft;

          2. 使用Ft從海量通用語(yǔ)料中提取相關(guān)領(lǐng)域的數(shù)據(jù);

          3. 用Ft對(duì)提取的數(shù)據(jù)作標(biāo)注;

          4. 用偽標(biāo)注語(yǔ)料訓(xùn)練學(xué)生模型Fs。

          其中的1,3,4步都是確定的,所以我們重點(diǎn)關(guān)注如何使用Ft從海量通用語(yǔ)料庫(kù)D中抽取出領(lǐng)域相關(guān)的語(yǔ)料D'。

          參考

          1. 香儂讀 | 自訓(xùn)練 + 預(yù)訓(xùn)練


          2. 想學(xué)習(xí)更多資源,可以關(guān)注下方公眾號(hào)


          瀏覽 118
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  蜜桃视频网址 | 日日夜夜三级电影网站 | 91麻豆精品国产91久久久久久 | 久久久久久久久久一级 | 久久 无码 一区二区三区四区 |