天天干人人干,天天色天天干天天日,四虎成人精品电影,欧美一级抄逼,逼逼国产,亚洲三级天天影院,欧美色视频日本免费,免费一区二区三区无码

在自然語言處理領(lǐng)域中，預(yù)訓(xùn)練語言模型（Pre-trained Language Models）已成為非常重要的基礎(chǔ)技術(shù)。為了進(jìn)一步促進(jìn)中文信息處理的研究發(fā)展，哈工大訊飛聯(lián)合實(shí)驗(yàn)室（HFL）基于自主研發(fā)的知識(shí)蒸餾工具TextBrewer，結(jié)合了全詞掩碼（Whole Word Masking）技術(shù)和知識(shí)蒸餾（Knowledge Distillation）技術(shù)推出中文小型預(yù)訓(xùn)練模型 MiniRBT。

MiniRBT 采用了如下技術(shù)：

全詞掩碼技術(shù)：全詞掩碼技術(shù)（Whole Word Masking）是預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略。簡(jiǎn)單來說，原有基于WordPiece的分詞方式會(huì)把一個(gè)完整的詞切分成若干個(gè)子詞，在生成訓(xùn)練樣本時(shí)，這些被分開的子詞會(huì)隨機(jī)被mask（替換成[MASK]；保持原詞匯；隨機(jī)替換成另外一個(gè)詞）。而在WWM中，如果一個(gè)完整的詞的部分WordPiece子詞被mask，則同屬該詞的其他部分也會(huì)被mask。更詳細(xì)的說明及樣例請(qǐng)參考：Chinese-BERT-wwm，本工作中使用了哈工大 LTP 作為分詞工具。
兩段式蒸餾：相較于教師模型直接蒸餾到學(xué)生模型的傳統(tǒng)方法，該項(xiàng)目采用中間模型輔助教師模型到學(xué)生模型蒸餾的兩段式蒸餾方法，即教師模型先蒸餾到助教模型（Teacher Assistant），學(xué)生模型通過對(duì)助教模型蒸餾得到，以此提升學(xué)生模型在下游任務(wù)的表現(xiàn)。并在下文中貼出了下游任務(wù)上兩段式蒸餾與一段式蒸餾的實(shí)驗(yàn)對(duì)比，結(jié)果表明兩段式蒸餾能取得相比一段式蒸餾更優(yōu)的效果。
構(gòu)建窄而深的學(xué)生模型。相較于寬而淺的網(wǎng)絡(luò)結(jié)構(gòu)，如 TinyBERT 結(jié)構(gòu)（4層，隱層維數(shù)312），開發(fā)團(tuán)隊(duì)構(gòu)建了窄而深的網(wǎng)絡(luò)結(jié)構(gòu)作為學(xué)生模型MiniRBT（6層，隱層維數(shù)256和288），實(shí)驗(yàn)表明窄而深的結(jié)構(gòu)下游任務(wù)表現(xiàn)更優(yōu)異。

MiniRBT目前有兩個(gè)分支模型，分別為MiniRBT-H256和MiniRBT-H288，表示隱層維數(shù)256和288，均為6層Transformer結(jié)構(gòu)，由兩段式蒸餾得到。同時(shí)為了方便實(shí)驗(yàn)效果對(duì)比，也提供了TinyBERT結(jié)構(gòu)的RBT4-H312模型下載。

模型下載

模型簡(jiǎn)稱	層數(shù)	隱層大小	注意力頭	參數(shù)量	Google下載	百度盤下載
MiniRBT-h288	6	288	8	12.3M	[PyTorch]	[PyTorch] （密碼：7313）
MiniRBT-h256	6	256	8	10.4M	[PyTorch]	[PyTorch] （密碼：iy53）
RBT4-h312 (TinyBERT同大小)	4	312	12	11.4M	[PyTorch]	[PyTorch] （密碼：ssdw）

也可以直接通過huggingface官網(wǎng)下載模型（PyTorch & TF2）：https://huggingface.co/hfl

下載方法：點(diǎn)擊任意需要下載的模型 → 選擇"Files and versions"選項(xiàng)卡 → 下載對(duì)應(yīng)的模型文件。

MiniRBT中文小型預(yù)訓(xùn)練模型

模型下載