<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          MiniRBT中文小型預(yù)訓(xùn)練模型

          聯(lián)合創(chuàng)作 · 2023-09-25 23:21

          在自然語言處理領(lǐng)域中,預(yù)訓(xùn)練語言模型(Pre-trained Language Models)已成為非常重要的基礎(chǔ)技術(shù)。為了進(jìn)一步促進(jìn)中文信息處理的研究發(fā)展,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)基于自主研發(fā)的知識(shí)蒸餾工具TextBrewer,結(jié)合了全詞掩碼(Whole Word Masking)技術(shù)和知識(shí)蒸餾(Knowledge Distillation)技術(shù)推出中文小型預(yù)訓(xùn)練模型 MiniRBT


          中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知識(shí)蒸餾工具TextBrewer | 模型裁剪工具TextPruner

          MiniRBT 采用了如下技術(shù):

          • 全詞掩碼技術(shù):全詞掩碼技術(shù)(Whole Word Masking)是預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略。簡(jiǎn)單來說,原有基于WordPiece的分詞方式會(huì)把一個(gè)完整的詞切分成若干個(gè)子詞,在生成訓(xùn)練樣本時(shí),這些被分開的子詞會(huì)隨機(jī)被mask(替換成[MASK];保持原詞匯;隨機(jī)替換成另外一個(gè)詞)。而在WWM中,如果一個(gè)完整的詞的部分WordPiece子詞被mask,則同屬該詞的其他部分也會(huì)被mask。更詳細(xì)的說明及樣例請(qǐng)參考:Chinese-BERT-wwm,本工作中使用了哈工大 LTP 作為分詞工具。

          • 兩段式蒸餾:相較于教師模型直接蒸餾到學(xué)生模型的傳統(tǒng)方法,該項(xiàng)目采用中間模型輔助教師模型到學(xué)生模型蒸餾的兩段式蒸餾方法,即教師模型先蒸餾到助教模型(Teacher Assistant),學(xué)生模型通過對(duì)助教模型蒸餾得到,以此提升學(xué)生模型在下游任務(wù)的表現(xiàn)。并在下文中貼出了下游任務(wù)上兩段式蒸餾與一段式蒸餾的實(shí)驗(yàn)對(duì)比,結(jié)果表明兩段式蒸餾能取得相比一段式蒸餾更優(yōu)的效果。

          • 構(gòu)建窄而深的學(xué)生模型。相較于寬而淺的網(wǎng)絡(luò)結(jié)構(gòu),如 TinyBERT 結(jié)構(gòu)(4層,隱層維數(shù)312),開發(fā)團(tuán)隊(duì)構(gòu)建了窄而深的網(wǎng)絡(luò)結(jié)構(gòu)作為學(xué)生模型MiniRBT(6層,隱層維數(shù)256和288),實(shí)驗(yàn)表明窄而深的結(jié)構(gòu)下游任務(wù)表現(xiàn)更優(yōu)異。

          MiniRBT目前有兩個(gè)分支模型,分別為MiniRBT-H256MiniRBT-H288,表示隱層維數(shù)256和288,均為6層Transformer結(jié)構(gòu),由兩段式蒸餾得到。同時(shí)為了方便實(shí)驗(yàn)效果對(duì)比,也提供了TinyBERT結(jié)構(gòu)的RBT4-H312模型下載。

          模型下載

          模型簡(jiǎn)稱 層數(shù) 隱層大小 注意力頭 參數(shù)量 Google下載 百度盤下載
          MiniRBT-h288 6 288 8 12.3M [PyTorch] [PyTorch]
          (密碼:7313)
          MiniRBT-h256 6 256 8 10.4M [PyTorch] [PyTorch]
          (密碼:iy53)
          RBT4-h312 (TinyBERT同大小) 4 312 12 11.4M [PyTorch] [PyTorch]
          (密碼:ssdw)

          也可以直接通過huggingface官網(wǎng)下載模型(PyTorch & TF2):https://huggingface.co/hfl

          下載方法:點(diǎn)擊任意需要下載的模型 → 選擇"Files and versions"選項(xiàng)卡 → 下載對(duì)應(yīng)的模型文件。

          瀏覽 61
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  靠逼网站在线看 | 日本黄色电影免费在线播放 | 91豆花在线观看 | 秋霞乱伦| 黄色电影毛片 |