【關(guān)于自訓(xùn)練 + 預(yù)訓(xùn)練 = 更好的自然語(yǔ)言理解模型 】 那些的你不知道的事
作者:楊夕
個(gè)人github:https://github.com/km1994/nlp_paper_study/tree/master/bert_study/SelfTrainingImprovesPreTraining
論文標(biāo)題:Self-training Improves Pre-training for Natural Language Understanding
論文地址:https://arxiv.org/abs/2010.02194
個(gè)人介紹:大佬們好,我叫楊夕,該項(xiàng)目主要是本人在研讀頂會(huì)論文和復(fù)現(xiàn)經(jīng)典論文過(guò)程中,所見(jiàn)、所思、所想、所聞,可能存在一些理解錯(cuò)誤,希望大佬們多多指正。
【注:手機(jī)閱讀可能圖片打不開(kāi)?。?!】
目錄
【關(guān)于自訓(xùn)練 + 預(yù)訓(xùn)練 = 更好的自然語(yǔ)言理解模型 】 那些的你不知道的事
目錄
摘要
前期知識(shí)
預(yù)訓(xùn)練
自訓(xùn)練
區(qū)別
問(wèn)題提出
論文方法
論文貢獻(xiàn)
論文思路
自訓(xùn)練處理流程
參考
一、摘要
Unsupervised pre-training has led to much recent progress in natural language understanding. In this paper, we study self-training as another way to leverage unlabeled data through semi-supervised learning. To obtain additional data for a specific task, we introduce SentAugment, a data augmentation method which computes task-specific query embeddings from labeled data to retrieve sentences from a bank of billions of unlabeled sentences crawled from the web. Unlike previous semi-supervised methods, our approach does not require in domain unlabeled data and is therefore more generally applicable. Experiments show that self-training is complementary tostrong RoBERTa baselines on a variety oftasks. Our augmentation approach leads to scalable and effective self-training with improvements of up to 2.6% on standard text classification benchmarks. Finally, we also show strong gains on knowledge-distillation and few-shot learning.
無(wú)監(jiān)督的預(yù)訓(xùn)練導(dǎo)致自然語(yǔ)言理解方面的最新進(jìn)展。
在本文中,我們將自訓(xùn)練作為通過(guò)半監(jiān)督學(xué)習(xí)利用未標(biāo)記數(shù)據(jù)的另一種方法。
為了獲得針對(duì)特定任務(wù)的其他數(shù)據(jù),我們引入了SentAugment,這是一種數(shù)據(jù)增強(qiáng)方法,可從標(biāo)記的數(shù)據(jù)計(jì)算特定于任務(wù)的查詢嵌入,以從網(wǎng)上爬行的數(shù)十億個(gè)未標(biāo)記的句子中檢索句子。
與以前的半監(jiān)督方法不同,我們的方法不需要域內(nèi)未標(biāo)記的數(shù)據(jù),因此更通用。
實(shí)驗(yàn)表明,自訓(xùn)練是在各種任務(wù)上的強(qiáng)RoBERTa基線的補(bǔ)充。我們的擴(kuò)充方法可實(shí)現(xiàn)可擴(kuò)展且有效的自我訓(xùn)練,并在標(biāo)準(zhǔn)文本分類基準(zhǔn)上提高了2.6%。最后,我們還顯示出在知識(shí)提煉和少量學(xué)習(xí)方面的巨大收獲。
二、前期知識(shí)

2.1 預(yù)訓(xùn)練
預(yù)訓(xùn)練(Pre-training)從廣義上來(lái)講,是指先在較大規(guī)模的數(shù)據(jù)上對(duì)模型訓(xùn)練一波,然后再在具體的下游任務(wù)數(shù)據(jù)中微調(diào)。大多數(shù)情況下,預(yù)訓(xùn)練的含義都比較狹窄:在大規(guī)模無(wú)標(biāo)注語(yǔ)料上,用自監(jiān)督的方式訓(xùn)練模型。這里的自監(jiān)督方法一般指的是語(yǔ)言模型。
2.2 自訓(xùn)練
自訓(xùn)練是說(shuō)有一個(gè)Teacher模型Ft和一個(gè)Student模型Fs,首先在標(biāo)注數(shù)據(jù)上訓(xùn)練Ft,然后用它對(duì)大規(guī)模無(wú)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注,把得到的結(jié)果當(dāng)做偽標(biāo)注數(shù)據(jù)去訓(xùn)練Fs。
2.3 區(qū)別
預(yù)訓(xùn)練和自訓(xùn)練都用到了大規(guī)模無(wú)標(biāo)注的數(shù)據(jù),只是二者的處理過(guò)程不同。而且,其中非常重要的一點(diǎn)是,預(yù)訓(xùn)練始終對(duì)針對(duì)一個(gè)模型進(jìn)行操作,而自訓(xùn)練卻用到了兩個(gè)模型,前者是直接從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí),而后者是間接地從數(shù)據(jù)中學(xué)習(xí)。
三、問(wèn)題提出
問(wèn)題一: do pre-training and self-training capture the same information, or are they complementary?
問(wèn)題二: how can we obtain large amounts of unannotated data from specific domains?
四、論文方法
問(wèn)題二解決方法:提出 SentAugment 方法 從 web 上獲取有用數(shù)據(jù);
問(wèn)題一解決方法:使用標(biāo)記的任務(wù)數(shù)據(jù)訓(xùn)練一個(gè) teacher 模型,然后用它對(duì)檢索到的未標(biāo)注句子進(jìn)行標(biāo)注,并基于這個(gè)合成數(shù)據(jù)集訓(xùn)練最終的模型。
五、論文貢獻(xiàn)
結(jié)合自訓(xùn)練與預(yù)訓(xùn)練,比單純的預(yù)訓(xùn)練取得了大幅度的效果提升;
為了使偽標(biāo)注數(shù)據(jù)更加契合下游的具體任務(wù),提出了SentAugment,一種特定領(lǐng)域的數(shù)據(jù)抽取方法,減少通用語(yǔ)料造成的噪聲干擾;
在知識(shí)蒸餾和小樣本學(xué)習(xí)任務(wù)上也取得了突出的結(jié)果,證明自訓(xùn)練+預(yù)訓(xùn)練的優(yōu)越性。
六論文思路
6.1 自訓(xùn)練處理流程
將一個(gè)預(yù)訓(xùn)練模型(本文使用RoBERTa_Large)在標(biāo)注數(shù)據(jù)上訓(xùn)練,作為教師模型Ft;
使用Ft從海量通用語(yǔ)料中提取相關(guān)領(lǐng)域的數(shù)據(jù);
用Ft對(duì)提取的數(shù)據(jù)作標(biāo)注;
用偽標(biāo)注語(yǔ)料訓(xùn)練學(xué)生模型Fs。
其中的1,3,4步都是確定的,所以我們重點(diǎn)關(guān)注如何使用Ft從海量通用語(yǔ)料庫(kù)D中抽取出領(lǐng)域相關(guān)的語(yǔ)料D'。

參考
香儂讀 | 自訓(xùn)練 + 預(yù)訓(xùn)練
想學(xué)習(xí)更多資源,可以關(guān)注下方公眾號(hào)

