<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌提出多語言BERT模型:可為109種語言生成與語言無關(guān)的跨語言句子嵌入

          共 2065字,需瀏覽 5分鐘

           ·

          2020-08-21 16:28



          ??新智元報(bào)道??

          來源:Google

          編輯:雅新

          【新智元導(dǎo)讀】谷歌研究人員提出了一種LaBSE的多語言BERT嵌入模型。該模型可為109種語言生成與語言無關(guān)的跨語言句子嵌入,同時(shí)在跨語言文本檢索性能優(yōu)于LASER。?


          近日,谷歌AI研究人員提出了一種稱為LaBSE的多語言BERT嵌入模型,該模型可為109種語言生成與語言無關(guān)的跨語言句子嵌入。
          ?
          這一論文題目為「Language-agnostic BERT Sentence Embedding」,目前已在arxiv上發(fā)表。
          ? ? ? ?
          論文地址:https://arxiv.org/pdf/2007.01852.pdf


          研究背景

          多語言嵌入模型是一種功能強(qiáng)大的工具,可將不同語言的文本編碼到共享的嵌入空間中,從而使其能夠應(yīng)用在一系列下游任務(wù),比如文本分類、文本聚類等,同時(shí)它還利用語義信息來理解語言。
          ?
          用于生成此類嵌入的現(xiàn)有方法如LASER或m~USE依賴并行數(shù)據(jù),將句子從一種語言直接映射到另一種語言,鼓勵(lì)句子嵌入之間的一致性。
          ?
          盡管這些現(xiàn)有的多語言嵌入方法可在多種語言中有良好的整體性能,但與專用雙語模型相比,它們?cè)诟哔Y源語言上通常表現(xiàn)不佳。
          ?
          此外,由于有限的模型容量、低資源語言的訓(xùn)練數(shù)據(jù)質(zhì)量通常較差,可能難以擴(kuò)展多語言模型以支持更多語言,同時(shí)保持良好的性能。

          多語言嵌入空間的示例
          ?
          改善語言模型的最新研究包括開發(fā)掩碼語言模型(MLM)預(yù)訓(xùn)練,如BERT,ALBER和RoBERTa使用的預(yù)訓(xùn)練。由于這種方法僅需要一種語言的文字,因此在多種語言和各種自然語言處理任務(wù)中均取得了非凡的成就。
          ?
          另外,MLM預(yù)訓(xùn)練已經(jīng)擴(kuò)展到多種語言,通過將MLM預(yù)訓(xùn)練修改為包括級(jí)聯(lián)翻譯對(duì),也稱作翻譯語言模型(TLM),或者僅引入來自多種語言的預(yù)訓(xùn)練數(shù)據(jù)。
          ?
          但是,盡管在進(jìn)行MLM和TLM訓(xùn)練時(shí)學(xué)習(xí)到的內(nèi)部模型表示形式對(duì)下游任務(wù)進(jìn)行微調(diào)很有幫助,但它們不能直接產(chǎn)生句子嵌入,而這對(duì)于翻譯任務(wù)至關(guān)重要。
          ?
          在這樣情況下,研究人員提出了一種稱為LaBSE的多語言BERT嵌入模型。
          ?
          該模型使用MLM和TLM預(yù)訓(xùn)練在170億個(gè)單語句子和60億個(gè)雙語句子對(duì)上進(jìn)行了訓(xùn)練,即使在訓(xùn)練期間沒有可用數(shù)據(jù)的低資源語言上也有效。
          ?
          此外,該模型在多個(gè)并行文本檢索任務(wù)上有表現(xiàn)出良好的性能。
          ? ? ? ?收集109種支持語言的訓(xùn)練數(shù)據(jù)


          LaBSE模型可在單個(gè)模型中提供了對(duì)109種語言的擴(kuò)展支持
          ??
          在先前的工作中,研究者曾建議使用翻譯排名任務(wù)來學(xué)習(xí)多語言句子嵌入空間。該方法通過給定源語言中的句子,對(duì)模型進(jìn)行排序,從而對(duì)目標(biāo)語言中的句子的正確翻譯進(jìn)行排名。
          ?
          翻譯排名任務(wù)通過使用帶有共享變壓器的雙編碼器體系結(jié)構(gòu)進(jìn)行訓(xùn)練的,讓雙語模型在多項(xiàng)并行文本檢索任務(wù)表現(xiàn)出最先進(jìn)的性能。
          ?
          但是,由于模型能力、詞匯量覆蓋范圍、訓(xùn)練數(shù)據(jù)質(zhì)量等方面的限制,將雙語模型擴(kuò)展為支持多種語言(在研究者的測(cè)試案例中為16種語言)時(shí),模型表現(xiàn)并不優(yōu)。

          翻譯排名任務(wù)
          ?
          對(duì)于LaBSE,研究人員在類似BERT的體系結(jié)構(gòu)上利用了語言模型預(yù)訓(xùn)練的最新成果,包括MLM和TLM,并在翻譯排名任務(wù)上進(jìn)行了微調(diào)。
          ?
          使用MLM和TLM在109種語言上預(yù)先訓(xùn)練的500k令牌詞匯表的12層轉(zhuǎn)換器,用于增加模型和詞匯表覆蓋范圍。
          ?
          最終,LaBSE模型在單個(gè)模型中提供了對(duì)109種語言的擴(kuò)展支持。

          雙編碼器體系結(jié)構(gòu)


          LaBSE模型在跨語言文本檢索的性能優(yōu)于LASER

          研究者使用Tatoeba語料庫評(píng)估提出的模型,Tatoeba語料庫是一個(gè)數(shù)據(jù)集,包含多達(dá)112個(gè)語言的1000個(gè)英語對(duì)齊的句子對(duì)。
          ?
          對(duì)于數(shù)據(jù)集中30種以上的語言,該模型沒有訓(xùn)練數(shù)據(jù)。該模型的任務(wù)是查找給定句子的最近相鄰的翻譯,并使用余弦距離進(jìn)行計(jì)算。
          ?
          為了了解訓(xùn)練數(shù)據(jù)分布的開頭或結(jié)尾處的語言模型的性能,研究人員將語言集分為幾組,并計(jì)算每組語言的平均準(zhǔn)確性。
          ?
          下表列出了與每種語言組的m?USE、LASER以及LaBSE模型實(shí)現(xiàn)的平均準(zhǔn)確性對(duì)比結(jié)果。


          可以看出,所有模型在涵蓋大多數(shù)主要語言的14語言組中均表現(xiàn)出色。當(dāng)涵蓋的語言增多,LASER和LaBSE的平均準(zhǔn)確度都會(huì)下降。
          ?
          但是,隨著語言數(shù)量的增加,LaBSE模型的準(zhǔn)確性降低的要小得多,明顯優(yōu)于LASER,尤其是當(dāng)包括112種語言的全部分發(fā)時(shí),LaBSE準(zhǔn)確性為83.7%,LASER為65.5%。
          ?
          此外,LaBSE還可用于從Web規(guī)模數(shù)據(jù)中挖掘并行文本。
          ?
          谷歌研究人員已經(jīng)通過tfhub向社區(qū)發(fā)布了預(yù)先訓(xùn)練的模型,其中包括可以按原樣使用或可以使用特定于域的數(shù)據(jù)進(jìn)行微調(diào)的模塊。
          ?
          鏈接:https://tfhub.dev/google/LaBSE/1
          ?

          ?


          參考鏈接:

          https://ai.googleblog.com/


          瀏覽 72
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  干一干操一操 | 日韩美女操逼网 | 中,日韩欧美中文字幕 | 第一色网站 | 大鸡巴精品视频在线看 |