MiniRBT中文小型預(yù)訓(xùn)練模型
在自然語言處理領(lǐng)域中,預(yù)訓(xùn)練語言模型(Pre-trained Language Models)已成為非常重要的基礎(chǔ)技術(shù)。為了進(jìn)一步促進(jìn)中文信息處理的研究發(fā)展,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)基于自主研發(fā)的知識(shí)蒸餾工具TextBrewer,結(jié)合了全詞掩碼(Whole Word Masking)技術(shù)和知識(shí)蒸餾(Knowledge Distillation)技術(shù)推出中文小型預(yù)訓(xùn)練模型 MiniRBT。
中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知識(shí)蒸餾工具TextBrewer | 模型裁剪工具TextPruner
MiniRBT 采用了如下技術(shù):
-
全詞掩碼技術(shù):全詞掩碼技術(shù)(Whole Word Masking)是預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略。簡(jiǎn)單來說,原有基于WordPiece的分詞方式會(huì)把一個(gè)完整的詞切分成若干個(gè)子詞,在生成訓(xùn)練樣本時(shí),這些被分開的子詞會(huì)隨機(jī)被mask(替換成[MASK];保持原詞匯;隨機(jī)替換成另外一個(gè)詞)。而在WWM中,如果一個(gè)完整的詞的部分WordPiece子詞被mask,則同屬該詞的其他部分也會(huì)被mask。更詳細(xì)的說明及樣例請(qǐng)參考:Chinese-BERT-wwm,本工作中使用了哈工大 LTP 作為分詞工具。
-
兩段式蒸餾:相較于教師模型直接蒸餾到學(xué)生模型的傳統(tǒng)方法,該項(xiàng)目采用中間模型輔助教師模型到學(xué)生模型蒸餾的兩段式蒸餾方法,即教師模型先蒸餾到助教模型(Teacher Assistant),學(xué)生模型通過對(duì)助教模型蒸餾得到,以此提升學(xué)生模型在下游任務(wù)的表現(xiàn)。并在下文中貼出了下游任務(wù)上兩段式蒸餾與一段式蒸餾的實(shí)驗(yàn)對(duì)比,結(jié)果表明兩段式蒸餾能取得相比一段式蒸餾更優(yōu)的效果。
-
構(gòu)建窄而深的學(xué)生模型。相較于寬而淺的網(wǎng)絡(luò)結(jié)構(gòu),如 TinyBERT 結(jié)構(gòu)(4層,隱層維數(shù)312),開發(fā)團(tuán)隊(duì)構(gòu)建了窄而深的網(wǎng)絡(luò)結(jié)構(gòu)作為學(xué)生模型MiniRBT(6層,隱層維數(shù)256和288),實(shí)驗(yàn)表明窄而深的結(jié)構(gòu)下游任務(wù)表現(xiàn)更優(yōu)異。
MiniRBT目前有兩個(gè)分支模型,分別為MiniRBT-H256和MiniRBT-H288,表示隱層維數(shù)256和288,均為6層Transformer結(jié)構(gòu),由兩段式蒸餾得到。同時(shí)為了方便實(shí)驗(yàn)效果對(duì)比,也提供了TinyBERT結(jié)構(gòu)的RBT4-H312模型下載。
模型下載
| 模型簡(jiǎn)稱 | 層數(shù) | 隱層大小 | 注意力頭 | 參數(shù)量 | Google下載 | 百度盤下載 |
|---|---|---|---|---|---|---|
| MiniRBT-h288 | 6 | 288 | 8 | 12.3M | [PyTorch] | [PyTorch] (密碼:7313) |
| MiniRBT-h256 | 6 | 256 | 8 | 10.4M | [PyTorch] | [PyTorch] (密碼:iy53) |
| RBT4-h312 (TinyBERT同大小) | 4 | 312 | 12 | 11.4M | [PyTorch] | [PyTorch] (密碼:ssdw) |
也可以直接通過huggingface官網(wǎng)下載模型(PyTorch & TF2):https://huggingface.co/hfl
下載方法:點(diǎn)擊任意需要下載的模型 → 選擇"Files and versions"選項(xiàng)卡 → 下載對(duì)應(yīng)的模型文件。
