<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌開源能翻譯101種語言的AI模型,只比Facebook多一種

          共 2114字,需瀏覽 5分鐘

           ·

          2020-11-07 03:31

          大數(shù)據(jù)文摘出品

          來源:VB


          10月底,Facebook發(fā)布了一款可翻譯100種語言的機(jī)器學(xué)習(xí)模型,微軟發(fā)布了一款能翻譯94種語言的模型,谷歌自然也不甘示弱。


          繼Facebook和微軟后,谷歌開源了一種名為MT5的模型,稱該模型在一系列英語自然語言處理任務(wù)上取得了最先進(jìn)的效果。

          ?

          MT5是谷歌的T5模型的多語言變體,已在包含101種語言的數(shù)據(jù)集中進(jìn)行了預(yù)訓(xùn)練,就比Facebook多了一種。

          ?

          Github地址:

          https://github.com/google-research/multilingual-t5

          ?

          MT5包含3億到130億個參數(shù),可直接適用于多種語言環(huán)境?


          MT5包含3億到130億個參數(shù),據(jù)悉,它能夠?qū)W習(xí)100多種語言而不會受到干擾。

          ?

          MT5是在MC4上訓(xùn)練的,MC4是C4的一個子集,MC4包含大約750GB的英文文本,這些文本來自Common Crawl存儲庫(Common Crawl 包含從互聯(lián)網(wǎng)上抓取的數(shù)十億個網(wǎng)頁)。雖然C4數(shù)據(jù)集被明確地設(shè)計為只使用英語,但MC4覆蓋了107種語言,包含10,000個或更多的網(wǎng)頁。

          ?

          不過,數(shù)據(jù)集仍存在一定的偏差,谷歌研究人員試圖通過刪除MC4文檔中的重復(fù)行和過濾含有錯誤單詞的頁面來減輕MT5的偏差。他們還使用工具檢測了每個頁面的主要語言,并刪除了可信度低于70%的頁面。

          ?

          谷歌表示,最大的MT5型號有130億個參數(shù),超過了2020年10月測試的所有基準(zhǔn)。當(dāng)然,基準(zhǔn)是否充分反映了模型的真實表現(xiàn),這是一個值得爭論的話題。

          ?

          一些研究表明,開放域問答模型(Open-Domain Question-Answering,理論上能夠用新穎答案回答新穎問題的模型)通常只是根據(jù)數(shù)據(jù)集簡單地記住在訓(xùn)練數(shù)據(jù)中找到的答案。但是谷歌的研究人員斷言MT5是邁向功能強(qiáng)大的模型的一步,這些功能不需要具有挑戰(zhàn)性的建模技術(shù)。

          ?

          谷歌的研究人員在一篇描述MT5的論文中寫道,“總的來說,我們的研究結(jié)果突出了模型能力在跨語言表征學(xué)習(xí)中的重要性,并表明,通過依賴于過濾、并行數(shù)據(jù)或中間任務(wù),擴(kuò)大簡單的預(yù)訓(xùn)練配方是一個可行的替代方案?!薄拔覀冄菔玖薚5配方直接適用于多語言設(shè)置,并在不同的基準(zhǔn)測試集上實現(xiàn)了強(qiáng)大的性能?!?/span>

          ?

          相比Facebook和微軟,谷歌的MT5似乎略勝一籌

          ?

          Facebook的新模型被稱作M2M-100,F(xiàn)acebook宣稱它是第一個多語言機(jī)器翻譯模型,可以直接在100種語言中的任何一對之間來回翻譯。Facebook AI構(gòu)建了一個共計由100種語言的75億個句子組成的龐大數(shù)據(jù)集。使用這個數(shù)據(jù)集,研究團(tuán)隊訓(xùn)練了一個擁有超過150億個參數(shù)的通用翻譯模型,據(jù)Facebook的一篇博客描述,該模型可以“獲取相關(guān)語言的信息,并反映出更多樣化的語言文本和語言形態(tài)”。

          ?

          而微軟推出的這款機(jī)器學(xué)習(xí)翻譯模型叫做T-ULRv2,可以翻譯94種語言。微軟聲稱,T-ULRv2在XTREME(谷歌創(chuàng)建的一種自然語言處理基準(zhǔn)測試)中獲得了最好的搜索結(jié)果,并將使用它來改進(jìn)Word中的語義搜索、Outlook和team中的回復(fù)建議等功能。

          ?

          T-ULRv2在XTREME中處在榜首

          ?

          T-ULRv2是微軟研究院和圖靈團(tuán)隊的聯(lián)合研究出品的,包含5.5億個參數(shù),模型利用這些參數(shù)進(jìn)行預(yù)測。微軟研究人員在一個多語言數(shù)據(jù)語料庫上訓(xùn)練了T-ULRv2,該數(shù)據(jù)語料庫來自由94種語言組成的網(wǎng)頁。在訓(xùn)練過程中,T-ULRv2通過預(yù)測不同語言句子中隱藏的單詞來進(jìn)行翻譯,偶爾也會從英語和法語等成對翻譯中獲得上下文線索。

          ?

          總之,從翻譯的語言數(shù)量來說,谷歌的MT5似乎略勝一籌,但數(shù)量多并不意味著準(zhǔn)確性高,就谷歌和Facebook的兩款翻譯模型來說,在某些低資源語種的翻譯上仍有提升空間,比如沃洛夫語、馬拉地語。此外,每款機(jī)器學(xué)習(xí)模型都會存在一定的偏差,正如艾倫AI研究所的科研人員所說,“現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)都沒辦法避免這一缺陷,人們急需更好的訓(xùn)練模式和模型建構(gòu)”。

          ?

          相關(guān)報道:

          https://venturebeat.com/2020/10/26/google-open-sources-mt5-a-multilingual-model-trained-on-over-101-languages/

          https://venturebeat.com/2020/10/20/microsoft-details-t-urlv2-model-that-can-translate-between-94-languages/




          實習(xí)/全職編輯記者招聘ing

          加入我們,親身體驗一家專業(yè)科技媒體采寫的每個細(xì)節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長。坐標(biāo)北京·清華東門,在大數(shù)據(jù)文摘主頁對話頁回復(fù)“招聘”了解詳情。簡歷請直接發(fā)送至[email protected]





          點「在看」的人都變好看了哦!
          瀏覽 43
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲免费人城 | 亚洲免费a片 | 五月婷婷第四色 | 欧美成人日日 | 欧美日韩国产一区 |