CINO少數(shù)民族語言預(yù)訓(xùn)練模型
在自然語言處理領(lǐng)域中,預(yù)訓(xùn)練語言模型(Pre-trained Language Model, PLM)已成為重要的基礎(chǔ)技術(shù),在多語言的研究中,預(yù)訓(xùn)練模型的使用也愈加普遍。為了促進(jìn)中國少數(shù)民族語言信息處理的研究與發(fā)展,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)發(fā)布少數(shù)民族語言預(yù)訓(xùn)練模型CINO (Chinese mINOrity PLM)。
中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知識(shí)蒸餾工具TextBrewer | 模型裁剪工具TextPruner
本項(xiàng)工作的主要貢獻(xiàn):
-
CINO (Chinese mINOrity PLM) 基于多語言預(yù)訓(xùn)練模型XLM-R,在多種國內(nèi)少數(shù)民族語言語料上進(jìn)行了二次預(yù)訓(xùn)練。該模型提供了藏語、蒙語(回鶻體)、維吾爾語、哈薩克語(阿拉伯體)、朝鮮語、壯語、粵語等少數(shù)民族語言與方言的理解能力。
-
為了便于評(píng)價(jià)包括CINO在內(nèi)的各個(gè)多語言預(yù)訓(xùn)練模型性能,我們構(gòu)建了基于維基百科的少數(shù)民族語言分類任務(wù)數(shù)據(jù)集Wiki-Chinese-Minority(WCM)。具體見少數(shù)民族語言分類數(shù)據(jù)集。
-
通過實(shí)驗(yàn)證明,CINO在Wiki-Chinese-Minority(WCM)以及其他少數(shù)民族語言數(shù)據(jù)集:藏語新聞分類 Tibetan News Classification Corpus (TNCC) 、朝鮮語新聞分類 KLUE-TC (YNAT) 上獲得了最好的效果。相關(guān)結(jié)果詳見實(shí)驗(yàn)結(jié)果。
該模型涵蓋:
- Chinese,中文(zh)
- Tibetan,藏語(bo)
- Mongolian (Uighur form),蒙語(mn)
- Uyghur,維吾爾語(ug)
- Kazakh (Arabic form),哈薩克語(kk)
- Korean,朝鮮語(ko)
- Zhuang,壯語
- Cantonese,粵語(yue)
