<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室發(fā)布模型魯棒性評測平臺TextFlint

          共 3590字,需瀏覽 8分鐘

           ·

          2021-04-13 13:36

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)


          復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室發(fā)布模型魯棒性評測平臺 TextFlint。該平臺涵蓋 12 項(xiàng) NLP 任務(wù),囊括 80 余種數(shù)據(jù)變形方法,花費(fèi)超 2 萬 GPU 小時,進(jìn)行了 6.7 萬余次實(shí)驗(yàn),驗(yàn)證約 100 種模型,選取約 10 萬條變形后數(shù)據(jù)進(jìn)行了語言合理性和語法正確性人工評測,為模型魯棒性評測及提升提供了一站式解決方案。




          項(xiàng)目地址:

          https://github.com/textflint


          官方網(wǎng)站:

          http://textflint.io/


          論文鏈接:

          https://arxiv.org/pdf/2103.11441.pdf (點(diǎn)擊閱讀原文獲取)


          引言

          近年來,隨著自然語言處理技術(shù)的不斷突破,深度學(xué)習(xí)模型在各項(xiàng) NLP 任務(wù)中的表現(xiàn)正在穩(wěn)步攀升。2018 年 1 月,在斯坦福大學(xué)發(fā)起的 SQuAD 閱讀理解評測任務(wù)中,來自微軟亞洲研究院的自然語言計(jì)算組所提出的算法率先趕超了人類。短短三年后,微軟的 DeBERTa 和谷歌的 T5+Meena 模型在包含了多種自然語言處理任務(wù)的綜合評測集合 SuperGLUE 上再次超越了人類。近日 IBM 號稱“首個能在復(fù)雜話題上與人類辯論的 AI 系統(tǒng)”的 Project Debater 登上了 Nature 雜志的封面,該系統(tǒng)在 78 類辯題中獲得了接近人類專業(yè)辯手的平均評分。我們不禁要問,人類真的被打敗了嗎? 

          事實(shí)上,縱使這些 NLP 模型在實(shí)驗(yàn)數(shù)據(jù)集上的表現(xiàn)十分驚人,在實(shí)際應(yīng)用中我們卻很難感知到自然語言處理系統(tǒng)“超越人類”的語言理解水平。難倒這些看似“聰明”的模型,只需要一個簡單的“逗號”,即便是基于赫赫有名的預(yù)訓(xùn)練語言模型 BERT 的算法也不例外。 

          例如,“漢堡很好吃薯?xiàng)l一般”對漢堡的評價是正面的,但當(dāng)我們插入“,”時,一些模型就會將“漢堡很好吃,薯?xiàng)l一般”判別為對漢堡的負(fù)面評價。一個微小且無關(guān)緊要的改動就能使自然語言處理系統(tǒng)失效,諸如此類的例子屢見不鮮。


          魯棒性何為

          為何大殺四方的優(yōu)秀模型在紛繁復(fù)雜的現(xiàn)實(shí)場景中紛紛折戟沉沙?其中一個很重要的原因是此前缺乏對模型魯棒性的重視和深入探討,導(dǎo)致模型只能在特定語料中圈地為王,在模型的效果評測中也僅僅關(guān)心在特定測試語料上的性能。如何幫助模型走出這樣的困局,給自然語言處理領(lǐng)域帶來質(zhì)的飛躍,是實(shí)現(xiàn)下一步技術(shù)發(fā)展的緊要任務(wù)。

          魯棒性是機(jī)器學(xué)習(xí)模型的一項(xiàng)重要評價指標(biāo),主要用于檢驗(yàn)?zāi)P驮诿鎸斎霐?shù)據(jù)的微小變動時,是否依然能保持判斷的準(zhǔn)確性,也即模型面對一定變化時的表現(xiàn)是否穩(wěn)定。魯棒性的高低直接決定了機(jī)器學(xué)習(xí)模型的泛化能力。在研究領(lǐng)域中,許多模型只能在某一特定的數(shù)據(jù)集上呈現(xiàn)準(zhǔn)確的結(jié)果,卻不能在其他數(shù)據(jù)集上復(fù)刻同樣優(yōu)異的表現(xiàn),這就是由于模型對新數(shù)據(jù)中的不同過于敏感,缺乏魯棒性。

          在現(xiàn)實(shí)世界的應(yīng)用場景中,模型要面對的是更加紛繁復(fù)雜的語言應(yīng)用方式,待處理的數(shù)據(jù)里包含著更加龐雜的變化。一旦缺乏魯棒性,模型在現(xiàn)實(shí)應(yīng)用中的性能就會大打折扣。在測試數(shù)據(jù)集上獲得高分是遠(yuǎn)遠(yuǎn)不夠的,機(jī)器學(xué)習(xí)模型的設(shè)計(jì)目標(biāo)是讓模型在面對新的外部數(shù)據(jù)時依然維持精準(zhǔn)的判斷。因此,為了確保模型的實(shí)際應(yīng)用價值,對模型進(jìn)行魯棒性評測是不可或缺的。


          方法 & 實(shí)驗(yàn)

          目前已有一些正在關(guān)注模型魯棒性的工作,但大多只針對單個的 NLP 任務(wù),或是只使用了少量的數(shù)據(jù)變形方法,缺乏系統(tǒng)性的工具集合。針對這一問題,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室展開了大規(guī)模的魯棒性測評工作,在桂韜博士、王梟博士、張奇教授、黃萱菁教授的主導(dǎo)下,20 余位博士生和碩士生共同參與,歷時 9 個月,開發(fā)了面向自然語言處理的多語言魯棒性測評一站式平臺 TextFlint。 

          TextFlint 包含針對 12 項(xiàng) NLP 任務(wù),設(shè)計(jì)了 80 余種數(shù)據(jù)變形方法(20 余種任務(wù)通用變形、60 余種領(lǐng)域特有變形),涵蓋了領(lǐng)域相關(guān)黑盒變形、領(lǐng)域無關(guān)黑盒變形、白盒變形、分組抽樣、分析報(bào)告等等一系列功能。為了確保數(shù)據(jù)變形方法符合語言使用,針對不同任務(wù)上的所有變形選取約 10 萬條變形后的語料進(jìn)行了語言合理性(Plausibility)和語法正確性(Grammaticality)人工評測,確保了變形方法的可用性。使用者僅僅需要添加幾行代碼,就可以完成模型魯棒性的詳細(xì)檢測。


          對于絕大多數(shù)的研究人員,使用 TextFlint 默認(rèn)參數(shù)就可以一鍵化生成全方位的魯棒性驗(yàn)證數(shù)據(jù),幾乎沒有任何學(xué)習(xí)成本。對于有復(fù)雜定制需求的用戶(例如對數(shù)據(jù)進(jìn)行多個變形的組合操作),通過編寫配置文件即可滿足需求。此外,TextFlint 還提供便捷的魯棒性可視化報(bào)告功能,多維度的魯棒性分析報(bào)告,可以為開發(fā)者指引了模型進(jìn)一步優(yōu)化方向。用戶可以根據(jù)報(bào)告結(jié)果,為模型生成擴(kuò)展樣本或?qū)箻颖?,從而直接提?NLP 模型魯棒性。

           

          利用 TextFlint,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室還對包括分詞、詞性標(biāo)注、句法分析、命名實(shí)體識別等在內(nèi)的 12 項(xiàng)自然語言處理任務(wù)的約 100 個模型進(jìn)行了復(fù)現(xiàn)和驗(yàn)證。部分任務(wù)還驗(yàn)證了 Microsoft、Amazon 以及 Google 的商業(yè) API 接口結(jié)果,共計(jì)花費(fèi)了 2 萬多個 GPU 小時,完成了 6.7 萬余次實(shí)驗(yàn)(全部評測結(jié)果可訪問 TextFlint.io 獲?。?/span> 


          例如針對細(xì)粒度情感傾向分析 SemEval 2014 Restaurant 數(shù)據(jù)集,將 847 個帶有明顯情感詞的測試用例進(jìn)行文本變換,使用轉(zhuǎn)換評論對象傾向性極性(RevTgt),轉(zhuǎn)換非評論對象傾向性極性(RevNon)和原句后增加干擾句(AddDiff)三種不同的變形分別生成了 847、582 和 847 個測試實(shí)例。10 種不同模型在上述變形語料上的分析結(jié)果如下所示:


          從結(jié)果中可以看到,原始測試集上所有模型的精度(Accuracy)和宏平均 F1(Macro-F1)得分都非常高,平均精度接近 86%,平均宏平均 F1 達(dá)到 65%。但是,這些指標(biāo)在變形后的三個新測試集上均有顯著下降。轉(zhuǎn)換評論對象傾向性極性變形使得模型的性能下降最多,因?yàn)樗竽P透珳?zhǔn)地關(guān)注目標(biāo)情感詞。原句后增加干擾句變形導(dǎo)致非 BERT 模型的性能下降顯著,這表明大多數(shù)非預(yù)訓(xùn)練模型缺乏將相關(guān)方面與無關(guān)方面進(jìn)行區(qū)分的能力。


          總結(jié)

          大規(guī)模的其他領(lǐng)域測評結(jié)果也同樣顯示,現(xiàn)有算法在大多數(shù)任務(wù)的測評數(shù)據(jù)集上的表現(xiàn)都較原始結(jié)果有所下降。即便是基于大規(guī)模預(yù)訓(xùn)練模型 BERT 的算法在一些任務(wù)的精度指標(biāo)上也呈現(xiàn)了超過 50% 的降幅,這意味著這些算法在真實(shí)場景中幾乎是不可用的。從以上大規(guī)模的評測結(jié)果可以看出,目前絕大多數(shù)算法模型的魯棒性都亟待提升,這是一場無可回避的技術(shù)攻堅(jiān)。 
          復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室希望通過 TextFlint 這一面向自然語言處理的魯棒性評測工具集合,為研究人員提供一個便捷的模型魯棒性驗(yàn)證方法,從而推動自然語言處理算法更好地應(yīng)用于真實(shí)場景。同時,也呼吁將模型魯棒性納入模型評估的必要維度,推動自然語言處理技術(shù)實(shí)現(xiàn)有效良性的發(fā)展。在未來,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室也將投入更多的人力和算力,進(jìn)一步完善 TextFlint 工具的任務(wù)覆蓋范圍和模型驗(yàn)證數(shù)量,并開展面向 NLP 任務(wù)的高魯棒可解釋模型的原創(chuàng)研究。


          點(diǎn)個在看 paper不斷!

          瀏覽 37
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线观看免费视频黄色 | 天天一级片 | 亚洲日韩中文在线观看 | 日本二区三区黄色 | av无码精品一区二区三区宅噜噜 |