<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

CINO少數(shù)民族語言預(yù)訓(xùn)練模型

聯(lián)合創(chuàng)作 · 2023-09-26 06:52

在自然語言處理領(lǐng)域中，預(yù)訓(xùn)練語言模型（Pre-trained Language Model, PLM）已成為重要的基礎(chǔ)技術(shù)，在多語言的研究中，預(yù)訓(xùn)練模型的使用也愈加普遍。為了促進(jìn)中國少數(shù)民族語言信息處理的研究與發(fā)展，哈工大訊飛聯(lián)合實(shí)驗(yàn)室（HFL）發(fā)布少數(shù)民族語言預(yù)訓(xùn)練模型CINO (Chinese mINOrity PLM)。

中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知識(shí)蒸餾工具TextBrewer | 模型裁剪工具TextPruner

本項(xiàng)工作的主要貢獻(xiàn)：

CINO (Chinese mINOrity PLM) 基于多語言預(yù)訓(xùn)練模型XLM-R，在多種國內(nèi)少數(shù)民族語言語料上進(jìn)行了二次預(yù)訓(xùn)練。該模型提供了藏語、蒙語（回鶻體）、維吾爾語、哈薩克語（阿拉伯體）、朝鮮語、壯語、粵語等少數(shù)民族語言與方言的理解能力。
為了便于評(píng)價(jià)包括CINO在內(nèi)的各個(gè)多語言預(yù)訓(xùn)練模型性能，我們構(gòu)建了基于維基百科的少數(shù)民族語言分類任務(wù)數(shù)據(jù)集Wiki-Chinese-Minority（WCM）。具體見少數(shù)民族語言分類數(shù)據(jù)集。
通過實(shí)驗(yàn)證明，CINO在Wiki-Chinese-Minority（WCM）以及其他少數(shù)民族語言數(shù)據(jù)集：藏語新聞分類 Tibetan News Classification Corpus (TNCC) 、朝鮮語新聞分類 KLUE-TC (YNAT) 上獲得了最好的效果。相關(guān)結(jié)果詳見實(shí)驗(yàn)結(jié)果。

該模型涵蓋：

Chinese，中文（zh）
Tibetan，藏語（bo）
Mongolian (Uighur form)，蒙語（mn）
Uyghur，維吾爾語（ug）
Kazakh (Arabic form)，哈薩克語（kk）
Korean，朝鮮語（ko）
Zhuang，壯語
Cantonese，粵語（yue）

瀏覽 48

點(diǎn)贊

收藏

分享

舉報(bào)

評(píng)論

圖片

表情

CINO少數(shù)民族語言預(yù)訓(xùn)練模型

在自然語言處理領(lǐng)域中，預(yù)訓(xùn)練語言模型（Pre-trainedLanguageModel,PLM）已成為重要的基礎(chǔ)技術(shù)，在多語言的研究中，預(yù)訓(xùn)練模型的使用也愈加普遍。為了促進(jìn)中國少數(shù)民族語言信息處理的研

二十世紀(jì)的中國少數(shù)民族語言研究

二十世紀(jì)的中國少數(shù)民族語言研究

最新 Transformer 預(yù)訓(xùn)練模型綜述！

機(jī)器學(xué)習(xí)實(shí)驗(yàn)室

MedicalNet3D 醫(yī)療影像預(yù)訓(xùn)練模型

MedicalNet是一個(gè)3D醫(yī)療影像預(yù)訓(xùn)練模型，其將多個(gè)3D醫(yī)療數(shù)據(jù)集集合成大數(shù)據(jù)集，基于此數(shù)據(jù)集提供了完整的3D-ResNet系列預(yù)訓(xùn)練模型與相應(yīng)的遷移學(xué)習(xí)訓(xùn)練代碼。適用場(chǎng)景MedicalNet提

MiniRBT中文小型預(yù)訓(xùn)練模型

在自然語言處理領(lǐng)域中，預(yù)訓(xùn)練語言模型（Pre-trainedLanguageModels）已成為非常重要的基礎(chǔ)技術(shù)。為了進(jìn)一步促進(jìn)中文信息處理的研究發(fā)展，哈工大訊飛聯(lián)合實(shí)驗(yàn)室（HFL）基于自主研發(fā)的知

時(shí)間序列+預(yù)訓(xùn)練大模型！

算法進(jìn)階

一文了解預(yù)訓(xùn)練語言模型！

博文視點(diǎn)Broadview

MedicalNet3D 醫(yī)療影像預(yù)訓(xùn)練模型

MedicalNet 是一個(gè) 3D 醫(yī)療影像預(yù)訓(xùn)練模型，其將多個(gè) 3D 醫(yī)療數(shù)據(jù)集集合成大數(shù)據(jù)集，基

計(jì)算機(jī)視覺（CV）預(yù)訓(xùn)練模型

小白學(xué)視覺

MiniRBT中文小型預(yù)訓(xùn)練模型

在自然語言處理領(lǐng)域中，預(yù)訓(xùn)練語言模型（Pre-trained Language Models）已成為

點(diǎn)贊

收藏

分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

国产大鸡吧网 | 骚B视频| 日本熟妇一区 | 国产精品乱轮 | 操鼻视频素材大全网站直接看 |