<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ACL最佳論文公布!59年,中國團(tuán)隊(duì)第2次奪魁

          共 4160字,需瀏覽 9分鐘

           ·

          2021-08-09 17:19




            新智元報(bào)道  

          編輯:yaxin、好困

          【新智元導(dǎo)讀】ACL最佳論文公布啦!字節(jié)跳動(dòng)摘得唯一一篇最佳論文桂冠。這是ACL成立59年以來,中國科學(xué)家團(tuán)隊(duì)第2次摘得最高獎(jiǎng)項(xiàng)。

           

          上個(gè)月,ACL 2021 公布了最佳論文、最佳主題論文和杰出論文,共8篇論文入選!

           

          其中,字節(jié)跳動(dòng)摘得唯一一篇最佳論文(best paper)桂冠

           

          這是ACL成立59年以來,中國科學(xué)家團(tuán)隊(duì)第2次摘得最高獎(jiǎng)項(xiàng)!

           

          這篇獲獎(jiǎng)?wù)撐念}目為 Vocabulary Learning via Optimal Transport for Machine Translation

           

           

          該研究提出了一種新的詞表學(xué)習(xí)方案VOLT,在多種翻譯任務(wù)上取得了優(yōu)秀的結(jié)果

           

          今年是自然語言處理領(lǐng)域頂級(jí)會(huì)議ACL的第59屆年會(huì),于8月2日-5日在線上舉行。

           

          在8月5日進(jìn)行的ACL 2021大會(huì)上,主辦方為最佳論文正式頒獎(jiǎng)。

           

           

          要說這次獲獎(jiǎng)的idea,離不開一個(gè)「執(zhí)念」


          拼算力有用,節(jié)能環(huán)保同樣值得探索


          如今AI在全世界都很火,AI模型的強(qiáng)度往往和算力成正比,占用大量算力資源、消耗大量電能去訓(xùn)練超大模型成為一股風(fēng)潮,而且確實(shí)創(chuàng)造了巨大的效益。



          但是在字節(jié)AI Lab很多研究人員看來,在實(shí)現(xiàn)同樣效果的前提下,降低模型復(fù)雜度、推動(dòng)節(jié)能環(huán)保也是很有價(jià)值的一個(gè)研究方向。

           

           

          VOLT論文第一作者許晶晶,就以「機(jī)器學(xué)習(xí)節(jié)能減排」的研究當(dāng)選為AAAI今年評(píng)選的學(xué)術(shù)新星(New Faculty Highlight)。

           

          從VOLT的測(cè)試效果來看,其對(duì)促進(jìn)AI產(chǎn)業(yè)節(jié)能環(huán)保極具潛力。

           

          以主流詞表BPE為例,業(yè)界普遍會(huì)通過大量自然語言處理下游任務(wù)的訓(xùn)練以尋找最優(yōu)大小。

           

          相比之下,使用VOLT方案可以節(jié)省大約92%的算力,這同時(shí)意味著所需電能的大量減少。

           

           

          這篇論文得到ACL評(píng)審們的一致好評(píng)

           

          • 想法新穎;
          • 顯著減少詞表的學(xué)習(xí)和搜索時(shí)間;
          • 有效性已經(jīng)通過幾個(gè)實(shí)驗(yàn)得到了很好的證明。
           
          ACL官方評(píng)審意見認(rèn)為:
           
          字節(jié)跳動(dòng)的VOLT方案對(duì)機(jī)器翻譯中一個(gè)重要問題提出了有效且新穎的解決方案,能顯著減少詞表的學(xué)習(xí)和搜索時(shí)間,相信其不僅會(huì)在研究界產(chǎn)生重要影響,在工業(yè)應(yīng)用方面也有著巨大潛力。
           
          根據(jù)ACL 2021官方信息,本屆大會(huì)共計(jì)收到3350篇論文投稿,最終有 21.3% 的論文錄用,并接收了14.9%的論文到Findings子刊,綜合錄用率為 36.2%。
           
          那么,字節(jié)跳動(dòng)AI Lab的VOLT為何能在3350篇論文中脫穎而出?


          什么是 VOLT?


          VOLT最為突出的貢獻(xiàn)便是去解決自然語言處理(NLP)的兩個(gè)基本問題

          1. 什么是最優(yōu)詞表;
          2. 如何生成最優(yōu)詞表。
           

          最優(yōu)詞表:以邊際收益定義詞表評(píng)價(jià)指標(biāo)MUV

           
          子詞級(jí)別詞表的效果在多個(gè)任務(wù)上已經(jīng)得到了驗(yàn)證,由此,作者表示子詞是目前來說比較好的選擇。
           
           
          相比于傳統(tǒng)的詞為基礎(chǔ)單位的詞表,子詞規(guī)模小不會(huì)面臨稀疏標(biāo)記(token)的問題。
           
          其中,稀疏標(biāo)記是指在語言中出現(xiàn)概率比較小的子詞。
           
          相比于字結(jié)構(gòu)的詞表,子詞也不會(huì)面臨熵太大語義無法區(qū)分的問題。
           
          于是,在確定最優(yōu)詞表的評(píng)價(jià)指標(biāo)方面,作者綜合考慮了信息熵和詞表大小這兩個(gè)主要因素。
           
          信息熵
           
          信息熵也可以理解成為蘊(yùn)含在每個(gè)字中的平均語義含量。
           
          直觀上理解信息熵越小表示每個(gè)字或者詞表示的信息越簡單,那么更加利于模型學(xué)習(xí)。
           
          作者使用基于字的熵計(jì)算方式來評(píng)估該屬性,其中v為詞表,i為詞表中的標(biāo)記,P為標(biāo)記在訓(xùn)練集出現(xiàn)的頻率:
           
           
          詞表大小
           
          機(jī)器學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)的數(shù)量要求很高,稀疏標(biāo)記的出現(xiàn)概率較低,因此稀疏標(biāo)記越多,需要的訓(xùn)練數(shù)據(jù)往往也就越多。
           
          在基于頻率的方法下,詞表越小,稀疏標(biāo)記越少,參數(shù)也越少,因此,小的詞表更加有利于模型學(xué)習(xí)。
           
          然而,信息熵和詞表大小不可以兼得。詞表越大,所需參數(shù)越大,稀疏標(biāo)記越多,但是信息熵在減小。
           
          邊際收益
           
          為了建模這種平衡,作者為此引入了邊際收益的概念。
           
          邊際收益衡量了付出單位代價(jià)所能獲得的利益的數(shù)量。邊際收益越大,那么投入產(chǎn)出比越高。
           
          將信息熵看成是邊際收益中的利益,詞表大小看成是邊際收益中的代價(jià)。隨著詞表的增加,不同大小的詞表的信息熵收益是不同的。
           
          因此,利用邊際收益的概念便可以對(duì)衡量詞表質(zhì)量的指標(biāo)MUV進(jìn)行定義,并且可以觀測(cè)到MUV指標(biāo)和下游任務(wù)的相關(guān)性。
           

          生成最優(yōu)詞表:將詞表搜索變?yōu)樽顑?yōu)運(yùn)輸問題

           
          在確定詞表評(píng)價(jià)指標(biāo)MUV之后,學(xué)習(xí)最優(yōu)詞表的問題可以粗略地等價(jià)為尋找具有最大MUV的詞表問題。
           
          但是詞表搜索空間不僅龐大,而且是離散空間。
           
          為了解決這一問題,作者將詞表搜索轉(zhuǎn)化為最優(yōu)運(yùn)輸?shù)倪^程。
           
          詞表搜索
           
          比如cat在訓(xùn)練集中出現(xiàn)了20次,那么cat需要20個(gè)c,20個(gè)a,和20個(gè)t來組成該標(biāo)記。
           
          為了避免不合法的搬運(yùn),作者將不合法的搬運(yùn)設(shè)為無窮大(比如字e搬運(yùn)給標(biāo)記cat是不合法的)。
           
          由于字的個(gè)數(shù)是有限的,有一些標(biāo)記候選就無法拿到對(duì)應(yīng)的字,那么這些標(biāo)記將會(huì)從最終的詞表中踢出去。
           
          為了將詞表學(xué)習(xí)的問題轉(zhuǎn)化成為最優(yōu)運(yùn)輸?shù)拇鷥r(jià),就需要進(jìn)行一些重構(gòu)操作了:
           
          MUV可以理解成為熵對(duì)詞表大小的一階導(dǎo)數(shù),為了建模連續(xù)的導(dǎo)數(shù),作者引入了相對(duì)分?jǐn)?shù)來模擬導(dǎo)數(shù):
           
           
          H代表的是信息熵,分子是信息熵的相對(duì)變化量,而分母中的i代表詞表大小的變化量,S是一個(gè)遞增序列,每個(gè)元素代表以該時(shí)刻大小為上屆的所有詞表組合。
           
          因此對(duì)于每個(gè)步驟來說,都存在一個(gè)具有最大MUV分?jǐn)?shù)的詞表,只要對(duì)所有的步驟做遍歷,就可找到最優(yōu)詞表。
           
          為了進(jìn)一步降低求解難度,作者對(duì)每一步的求解公式做了一個(gè)近似:
           
           
          因此,每個(gè)步驟的問題就轉(zhuǎn)化成了每個(gè)步驟尋找熵最大詞表的問題。
           
          接著使用基于熵的最優(yōu)運(yùn)輸解法就可以將最優(yōu)運(yùn)輸?shù)哪繕?biāo)定義成為尋找熵最大詞表的問題。
           
          如此便可以使用標(biāo)準(zhǔn)的求解算法去求解該公式:
           
           
          找到詞表的最大熵并且計(jì)算出當(dāng)前的最大MUV分?jǐn)?shù),最后遍歷所有的步驟即可找到具有最優(yōu)的MUV的詞表。
           
          由于篇幅限制,這兒就不展開說了。相關(guān)細(xì)節(jié)可查看論文作者blog:https://jingjing-nlp.github.io/volt-blog/
           
          該方法不需要下游任務(wù)訓(xùn)練,因此非常簡單高效。
           

          測(cè)試結(jié)果

           
          在從雙語翻譯的結(jié)果上看,新方法學(xué)到的詞表比經(jīng)常使用的詞表小很多,效果也很有競爭力。
           
           
          從多語翻譯的結(jié)果上看,在三分之二的數(shù)據(jù)集上效果也是較好的。
           
           

          分析總結(jié)

           
          文章除了介紹VOLT提供一個(gè)更好的詞表學(xué)習(xí)工具外,還分析了詞表大小對(duì)表現(xiàn)的影響。
           
          作者使用VOLT搜索出的詞表大小生成了BPE的詞表,發(fā)現(xiàn)也可以得到相似的結(jié)果,因此作者也推薦使用VOLT作為一種詞表大小學(xué)習(xí)方式。
           
          除此之外,實(shí)驗(yàn)中也發(fā)現(xiàn)簡單的基線模型在使用了VOLT生成的詞表之后也達(dá)到了和最優(yōu)受限結(jié)果(不借助外部資源)匹配的分?jǐn)?shù),或許也可以引發(fā)對(duì)基線模型效果的進(jìn)一步思考。
           
          東西是有點(diǎn)干,當(dāng)你切身實(shí)際感受到,就不干了。
           


          老外在說什么?火山全懂


          和谷歌翻譯一樣,字節(jié)團(tuán)隊(duì)的論文研究成果也會(huì)在火山翻譯中逐步得到應(yīng)用
           
          主要為飛書、今日頭條等產(chǎn)品和火山引擎的「企業(yè)級(jí)客戶」提供機(jī)器翻譯支持。
           
          一起來看下西瓜視頻中的翻譯效果。
           
          這是一個(gè)數(shù)學(xué)教學(xué)視頻,原視頻中帶有人工翻譯的字幕。
           
           
          再來看經(jīng)過火山翻譯后的視頻字幕,其翻譯質(zhì)量并不比人工翻譯遜色多少。
           

          2021年以來,火山翻譯實(shí)現(xiàn)多項(xiàng)重要技術(shù)突破,研發(fā)出支持150個(gè)語種互譯的大規(guī)模翻譯模型mRASP2。
           
          項(xiàng)目地址: https://github.com/PANXiao1994/mRASP2
           
          此外,還對(duì)外開源了當(dāng)前業(yè)界最快的推理和訓(xùn)練引擎LightSeq2.0,以及端到端語音翻譯工具包NeurST,獲得開源社區(qū)的廣泛好評(píng)。
           
          項(xiàng)目地址: https://github.com/bytedance/lightseq
           
          LightSeq在GitHub上已經(jīng)獲得了1500星。
           
          項(xiàng)目地址: https://github.com/bytedance/neurst
           
          在此前由ACL舉辦的機(jī)器翻譯大賽WMT2021上,火山翻譯以獨(dú)創(chuàng)的「并行翻譯」系統(tǒng)參賽,奪得德語到英語方向比賽自動(dòng)評(píng)估第一名
           
           
          「并行翻譯」在國際賽事中首次亮相,就擊敗了從左向右逐詞翻譯的傳統(tǒng)技術(shù),打破后者在機(jī)器翻譯領(lǐng)域的絕對(duì)統(tǒng)治地位,這項(xiàng)技術(shù)的論文也得到ACL 2021大會(huì)收錄。
           
           
          目前,火山翻譯已支持56個(gè)語種、3080個(gè)語向的翻譯。
           
           
          從背后可以看出,火山翻譯的技術(shù)離不開字節(jié)團(tuán)隊(duì)多年來在機(jī)器學(xué)習(xí)和自然語言的深耕,有一套前沿研究、產(chǎn)品研發(fā)和用戶反饋的閉環(huán)。
           
          字節(jié)業(yè)務(wù)覆蓋150個(gè)國家和地區(qū),研發(fā)團(tuán)隊(duì)分布在全世界多個(gè)國家,工作中也在使用自己打造的產(chǎn)品來跨語言溝通。
           
          全球化業(yè)務(wù)+全球化人才,火山翻譯不能不行。



          瀏覽 43
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩无码一卡二卡 | 在线中文字幕777 | 91视频久久久久久久久久久 | 偷拍网首页 | 久久激情精品 |