復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室發(fā)布模型魯棒性評測平臺TextFlint
點(diǎn)擊上方“視學(xué)算法”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)

項(xiàng)目地址:
https://github.com/textflint
官方網(wǎng)站:
http://textflint.io/
論文鏈接:
https://arxiv.org/pdf/2103.11441.pdf (點(diǎn)擊閱讀原文獲取)

引言
近年來,隨著自然語言處理技術(shù)的不斷突破,深度學(xué)習(xí)模型在各項(xiàng) NLP 任務(wù)中的表現(xiàn)正在穩(wěn)步攀升。2018 年 1 月,在斯坦福大學(xué)發(fā)起的 SQuAD 閱讀理解評測任務(wù)中,來自微軟亞洲研究院的自然語言計(jì)算組所提出的算法率先趕超了人類。短短三年后,微軟的 DeBERTa 和谷歌的 T5+Meena 模型在包含了多種自然語言處理任務(wù)的綜合評測集合 SuperGLUE 上再次超越了人類。近日 IBM 號稱“首個能在復(fù)雜話題上與人類辯論的 AI 系統(tǒng)”的 Project Debater 登上了 Nature 雜志的封面,該系統(tǒng)在 78 類辯題中獲得了接近人類專業(yè)辯手的平均評分。我們不禁要問,人類真的被打敗了嗎?
事實(shí)上,縱使這些 NLP 模型在實(shí)驗(yàn)數(shù)據(jù)集上的表現(xiàn)十分驚人,在實(shí)際應(yīng)用中我們卻很難感知到自然語言處理系統(tǒng)“超越人類”的語言理解水平。難倒這些看似“聰明”的模型,只需要一個簡單的“逗號”,即便是基于赫赫有名的預(yù)訓(xùn)練語言模型 BERT 的算法也不例外。
例如,“漢堡很好吃薯?xiàng)l一般”對漢堡的評價是正面的,但當(dāng)我們插入“,”時,一些模型就會將“漢堡很好吃,薯?xiàng)l一般”判別為對漢堡的負(fù)面評價。一個微小且無關(guān)緊要的改動就能使自然語言處理系統(tǒng)失效,諸如此類的例子屢見不鮮。

魯棒性何為
魯棒性是機(jī)器學(xué)習(xí)模型的一項(xiàng)重要評價指標(biāo),主要用于檢驗(yàn)?zāi)P驮诿鎸斎霐?shù)據(jù)的微小變動時,是否依然能保持判斷的準(zhǔn)確性,也即模型面對一定變化時的表現(xiàn)是否穩(wěn)定。魯棒性的高低直接決定了機(jī)器學(xué)習(xí)模型的泛化能力。在研究領(lǐng)域中,許多模型只能在某一特定的數(shù)據(jù)集上呈現(xiàn)準(zhǔn)確的結(jié)果,卻不能在其他數(shù)據(jù)集上復(fù)刻同樣優(yōu)異的表現(xiàn),這就是由于模型對新數(shù)據(jù)中的不同過于敏感,缺乏魯棒性。
在現(xiàn)實(shí)世界的應(yīng)用場景中,模型要面對的是更加紛繁復(fù)雜的語言應(yīng)用方式,待處理的數(shù)據(jù)里包含著更加龐雜的變化。一旦缺乏魯棒性,模型在現(xiàn)實(shí)應(yīng)用中的性能就會大打折扣。在測試數(shù)據(jù)集上獲得高分是遠(yuǎn)遠(yuǎn)不夠的,機(jī)器學(xué)習(xí)模型的設(shè)計(jì)目標(biāo)是讓模型在面對新的外部數(shù)據(jù)時依然維持精準(zhǔn)的判斷。因此,為了確保模型的實(shí)際應(yīng)用價值,對模型進(jìn)行魯棒性評測是不可或缺的。
方法 & 實(shí)驗(yàn)
TextFlint 包含針對 12 項(xiàng) NLP 任務(wù),設(shè)計(jì)了 80 余種數(shù)據(jù)變形方法(20 余種任務(wù)通用變形、60 余種領(lǐng)域特有變形),涵蓋了領(lǐng)域相關(guān)黑盒變形、領(lǐng)域無關(guān)黑盒變形、白盒變形、分組抽樣、分析報(bào)告等等一系列功能。為了確保數(shù)據(jù)變形方法符合語言使用,針對不同任務(wù)上的所有變形選取約 10 萬條變形后的語料進(jìn)行了語言合理性(Plausibility)和語法正確性(Grammaticality)人工評測,確保了變形方法的可用性。使用者僅僅需要添加幾行代碼,就可以完成模型魯棒性的詳細(xì)檢測。

從結(jié)果中可以看到,原始測試集上所有模型的精度(Accuracy)和宏平均 F1(Macro-F1)得分都非常高,平均精度接近 86%,平均宏平均 F1 達(dá)到 65%。但是,這些指標(biāo)在變形后的三個新測試集上均有顯著下降。轉(zhuǎn)換評論對象傾向性極性變形使得模型的性能下降最多,因?yàn)樗竽P透珳?zhǔn)地關(guān)注目標(biāo)情感詞。原句后增加干擾句變形導(dǎo)致非 BERT 模型的性能下降顯著,這表明大多數(shù)非預(yù)訓(xùn)練模型缺乏將相關(guān)方面與無關(guān)方面進(jìn)行區(qū)分的能力。

總結(jié)
點(diǎn)個在看 paper不斷!
