<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Google掀桌了,GLUE基準(zhǔn)的時代終于過去了?

          共 9026字,需瀏覽 19分鐘

           ·

          2021-12-30 18:28

          文 | Severus

          大家好,我是Severus,一個在某廠做中文文本理解的老程序員。

          今年11月,Google 在 NeurIPS2021 投稿了一篇文章,名為 AI and the Everything in the Whole Wide World Benchmark,矛頭直指評估AI模型“通用”能力的基準(zhǔn)(ImageNet、GLUE/SuperGLUE),文章中用詞相當(dāng)兇狠,這里我簡單截取幾段,給小伙伴們感受一下(手動眼斜)。

          當(dāng)然以上只是冰山一角。

          讀過我以往文章(在錯誤的數(shù)據(jù)上,刷到SOTA又有什么意義?)的小伙伴都知道,我也對NLP當(dāng)前卷任務(wù)的現(xiàn)狀深惡痛絕,但陰陽怪氣如我,也不敢寫出如此兇猛的言辭,那么我們就一起來看一下,這一發(fā)炮彈,究竟裝了什么火藥吧。

          論文標(biāo)題
          AI and the Everything in the Whole Wide World Benchmark

          論文地址
          http://arxiv.org/abs/2111.15366

          這篇文章的標(biāo)題,化用了一篇童話故事的標(biāo)題,Grover and the Everything in the Whole Wide World Museum,故事中講道,一個名叫 Grover 的布偶怪物造訪了一個號稱展示“世界上所有的東西”的博物館,博物館中將展品分為若干個展廳,有些展廳的歸類則顯得非常隨意、主觀,例如“你能在墻上找到的東西”,“讓你覺得好笑的東西”;有些歸類則很奇怪,如“胡蘿卜房間”;有些歸類則很模糊,如“高高的大廳”等。Grover 最終打開了一扇寫著“Everything Else”的房間,發(fā)現(xiàn)自己在外面的世界里。

          很顯然,作者化用了這樣一個標(biāo)題,則也是認(rèn)為,現(xiàn)在的所謂通用基準(zhǔn)也一樣,試圖使用相當(dāng)有限的數(shù)據(jù),概括世界上所有的事物,這個前提首先是不成立的,那么這些基準(zhǔn)也自然如童話故事般荒謬

          本文主要以 CV 和 NLP 兩個領(lǐng)域中,兩大著名的“通用”評測基準(zhǔn)——ImageNet 和 GLUE/SuperGLUE 作為切入點,剖析“通用”能力評測基準(zhǔn)的若干局限性,以及唯指標(biāo)風(fēng)氣可能帶來的危害。最終,也提出了替代基準(zhǔn)的探索路徑。

          現(xiàn)在的基準(zhǔn)能評測通用嗎?

          作為 CV 領(lǐng)域最有影響力的基準(zhǔn),ImageNet 以其類別數(shù)量,和每個類別中圖片的絕對量級為優(yōu)勢,一直作為視覺智能領(lǐng)域長期目標(biāo)的里程碑,其創(chuàng)作者也希望 ImageNet 可以作為視覺智能領(lǐng)域的終極評測基準(zhǔn)。

          GLUE/SuperGLUE 也長期作為自然語言理解的通用評估基準(zhǔn),其主打優(yōu)勢則是包含多樣化的任務(wù),考察能力綜合全面,近期被NLU卷友們廣泛接受。

          這兩個基準(zhǔn)在歷史意義上,有著無可取代的地位:ImageNet 直接引爆了深度學(xué)習(xí)的火熱,而 NLP 領(lǐng)域繞不開的 BERT 則是在 GLUE 初次秀了肌肉,走上了歷史的舞臺。

          但是,這兩個數(shù)據(jù)集,真的可以去評估模型的通用能力嗎?

          現(xiàn)實中,數(shù)據(jù)集是被設(shè)計的、主觀且有限的,并且長期以來,我們忽略了數(shù)據(jù)中存在的固有偏見、主觀傾向,數(shù)據(jù)集上的指標(biāo),幾乎成為了評估模型能力的唯一標(biāo)準(zhǔn),自然也導(dǎo)致模型被誤用。事實上,在應(yīng)用上、或者專用 agent 模型上,我們承認(rèn) bias 的存在,甚至人為構(gòu)造高 bias 的數(shù)據(jù)集,但如果我們將“通用”作為唯一目標(biāo),則理想意義上可以評測“通用”能力數(shù)據(jù)集,在現(xiàn)實中不可能存在

          而僅使用數(shù)據(jù)集,及性能指標(biāo),則會給任務(wù)設(shè)計、任務(wù)的關(guān)注焦點帶來誤導(dǎo),從而導(dǎo)致算法的優(yōu)化方向逐漸偏離初衷。

          任務(wù)設(shè)計太武斷

          一個任務(wù)可以看作是從輸入空間到輸出空間的映射,應(yīng)被任務(wù)的描述,以及一個特定的數(shù)據(jù)集共同定義。但在機器學(xué)習(xí)領(lǐng)域中,目前的趨勢似乎更加偏重于后者,基準(zhǔn)中某一個任務(wù),可能是一拍腦門,想到一個前提,然后就直接收集數(shù)據(jù)集,完全使用數(shù)據(jù)集定義了任務(wù)形式,卻與真正的評測目標(biāo)、問題空間沒有多大關(guān)系。

          所謂“通用”基準(zhǔn),是用以測試通用的人工認(rèn)知能力的,那么我們自然希望,評測任務(wù)是參考了模型想要模擬的認(rèn)知能力及相關(guān)理論,系統(tǒng)化地選擇出來的。而實際上,我們觀察到的則是,基準(zhǔn)的作者們在選擇任務(wù)的時候,更像是圖方便、省事,所以隨意地將若干個任務(wù)組合起來,即便它們在理論上不可靠。甚至,一些任務(wù)本身,沒有任何應(yīng)用上的意義。

          數(shù)據(jù)集/任務(wù)集組合太隨意

          作者認(rèn)為,機器學(xué)習(xí)中,很多任務(wù)的目標(biāo),并不是人們所真正關(guān)心的問題,例如分辨虹膜和蘑菇的模型,似乎對人類沒有任何幫助。其實,如果是作為專用 agent 的機器學(xué)習(xí)系統(tǒng),這類簡單問題,機器相比于人類,處理效率是大大提升的,但如果討論“通用認(rèn)知能力”,則的確,這個任務(wù)沒有顯著意義。

          作為視覺智能領(lǐng)域里程碑式的任務(wù),ImageNet中也存在類似的標(biāo)簽,例如“特定品種的狗”,或“新西蘭的海岸”(離了大譜,直接要世界知識bias了)。實際上,ImageNet的標(biāo)簽是直接從WordNet中12個子樹中,整體照搬過來的,但沒有考慮到,WordNet是英語詞匯劃分體系,則必然存在英語語境下的 bias,例如 person 子樹上,可能就出現(xiàn)了較為政治敏感的 bias(原文說是歧視,但筆者認(rèn)為僅僅是數(shù)據(jù)構(gòu)造者,基于其所熟悉環(huán)境和知識背景,所形成的自然局限,而非主觀上的歧視)。

          GLUE/SuperGLUE 的數(shù)據(jù)也并非精心挑選。據(jù)GLUE的論文中寫,最初在構(gòu)造數(shù)據(jù)集的時候,大概有30個任務(wù)可供選擇,而創(chuàng)造者們基于任務(wù)的復(fù)雜性,難度,以及權(quán)限許可等為依據(jù),使用高標(biāo)準(zhǔn)篩選,最終剩下了9個任務(wù)。以此為依據(jù),本文作者認(rèn)為,GLUE基準(zhǔn),沒有系統(tǒng)性地描述出“理解”所需的語言技能,也沒有呈現(xiàn)出語言知識的多樣化,自然也不能說是以其所宣稱的“理解”目標(biāo)為依據(jù),而設(shè)計此基準(zhǔn)。

          所以,在GLUE/SuperGLUE基準(zhǔn)的各個任務(wù)上,可以定性評測模型的性能,但是分?jǐn)?shù)高低,絕不等同于“語言理解”的能力大小。自然,也不能說模型解決了這些任務(wù),就斷言模型具備了“理解”語言的能力。

          更具危害的是,GLUE/SuperGLUE 基準(zhǔn)的設(shè)計思路,被原封不動地照搬到了其他宣稱 NLU 通用能力評估的基準(zhǔn)中,例如中文基準(zhǔn)ChineseGLUE 和 CLUE。ChineseGLUE 中甚至存在機翻的訓(xùn)練集和驗證集,對應(yīng)人翻的測試集。CLUE 中存在著部分?jǐn)?shù)據(jù)集,一味考慮任務(wù)的復(fù)雜性,卻在最起碼的分布邊界劃分上(如NER各個類別的邊界,如場所、景點類,組織機構(gòu)及其子類),模糊不清,且數(shù)據(jù)的一致性無法保證(同一個 span,即可能被標(biāo)注成“組織機構(gòu)”,有可能被標(biāo)注成“公司”,且二者的比例為7:10)。

          錯誤理解了領(lǐng)域知識和問題空間

          GLUE/SuperGLUE基準(zhǔn)中,除語言學(xué)之外,還融合了常識推理、世界(事實)知識等,就好像它們的問題范圍是等同的。創(chuàng)建者們似乎希望,模型可以具備應(yīng)用世界知識、邏輯推理、常識推理等去進行推斷,解決任務(wù)。所以,數(shù)據(jù)集中不僅僅包含了語言能力考察,還包含了邏輯推斷,獲取、運用世界知識相關(guān)能力的考察。

          的確,人在進行交流的時候,不可避免地在使用這些知識,而不僅僅是使用了單獨的語言技能,事實上,什么是單獨的語言技能,至少在中文中,是一個難以回答的問題,其似乎與“常識”難以完全剝離開來(如習(xí)慣性的構(gòu)詞、表達(dá)方式等)。但語言知識(筆者習(xí)慣將之稱為通用知識)與世界知識不同,語言知識在每段文本中自成結(jié)構(gòu),在不同的文本,甚至在不同的領(lǐng)域中是相通的。即,一個人可以不知道某一段文本中描述的事實,或完全不知道某一段文本中提到的實體,但他也能看懂這段文本;兩個家庭環(huán)境、成長環(huán)境完全不一樣的人,但只要他們語言相通,即可以交流。而世界知識,則更加與“記憶”相關(guān),知道就是知道,不知道就是不知道。世界知識本身也是更加開放、無限、多變的,且其無法枚舉(想想每天在互聯(lián)網(wǎng)上的吃瓜現(xiàn)狀)。

          也就是說,語言知識和世界知識,在問題范圍上完全不等價,卻要在同一個只包含文本的基準(zhǔn)上被考察,筆者在聽中國傳媒大學(xué)教授的演講課時,對一句話印象頗深——“文字禁錮了語言的表達(dá)”,的確,哪怕是人,在交流的時候,不可避免會帶上大腦中的先驗知識,雙方談吐時的語氣、狀態(tài)等,這都是在給對方傳達(dá)用以“理解”的信號,這些都是純文本的數(shù)據(jù)集無法傳遞的。如筆者在之前的文章中所說,如果僅利用任務(wù)規(guī)則中允許我們用到的知識,人類能否有能力得到該樣本中給出的答案?

          想象一下,如果測試樣本中使用了訓(xùn)練樣本中出現(xiàn)過的事實知識,模型做對了,但我們很難去說,模型做到了“理解”,只能說做到了擬合,且這種擬合很容易被對抗,例如構(gòu)造假事實,例如完全使用二義性實體,分別構(gòu)造訓(xùn)練樣本和測試樣本。

          這個現(xiàn)象在 CLUE基準(zhǔn)上甚至變本加厲,如 CLUENER 數(shù)據(jù)集中,一些類別如不使用世界知識(如:游戲、漫畫、小說、電影類),是完全無法判定的,而文本中給出的信息,有時又不足以讓人分辨出,該使用什么樣的世界知識(無法完成鏈指),畢竟,游戲改編動畫,小說改編電影,小說改編游戲,實在是太常見了。

          現(xiàn)狀被忽略

          在開篇所提的童話故事中,Grover 看到了一個“非常非常亮的東西”的展廳,發(fā)現(xiàn)了一塊大石頭,他說:“錯了,這個石頭不亮”,并覺得應(yīng)該把它挪到“非常非常重的東西”的展廳。但他發(fā)現(xiàn),相比于“重東西”,這塊石頭并不重,而相比于其他石頭,這塊石頭的顏色的確亮一些。

          不存在絕對中立的數(shù)據(jù)集,數(shù)據(jù)集必然受其創(chuàng)造者本身的背景知識所限,存在其固有的局限性。數(shù)據(jù)基準(zhǔn)測試本就是封閉的、主觀的且基于有限數(shù)據(jù)構(gòu)造的。但由于大家長期接受并強調(diào),其用于“通用”能力評測的設(shè)定,“通用”反倒成為了掩護,開發(fā)基準(zhǔn)的人以此為借口,逃避了報告基準(zhǔn)數(shù)據(jù)細(xì)節(jié)(如數(shù)據(jù)源、可能存在的偏向性)的責(zé)任。基準(zhǔn)數(shù)據(jù)集應(yīng)當(dāng)有描述文檔,但現(xiàn)狀是這方面的建設(shè)是不發(fā)達(dá)的,并且數(shù)據(jù)相關(guān)的工作在業(yè)界被大大低估。

          數(shù)據(jù)范圍受限

          ImageNet數(shù)據(jù)集,其量級、類別數(shù)量等,都可稱為是超大規(guī)模,但即便如此,其仍然受到文化背景及時代的局限,如非西方文化背景的圖片明顯不足,且絕大多數(shù)圖片是局限于當(dāng)代的。同時,ImageNet中的圖片,要識別的目標(biāo)更加傾向于居中——與現(xiàn)實生活中,人類所面對的情境相去甚遠(yuǎn)

          GLUE/SuperGLUE的作者們倒是不以數(shù)據(jù)的絕對數(shù)量為賣點,而是主打任務(wù)的多樣性。與之前的基準(zhǔn)不同,GLUE中引入了多個任務(wù),其論文中宣稱:覆蓋了多樣的文本體裁,數(shù)據(jù)集大小以及難度,然而,與人類的語言活動相比,GLUE基準(zhǔn)很難說是多樣,僅包含2個單句分類(CoLA、SST-2),3個相似度和語義解釋任務(wù)(MRPC、SST-B、QQP),4個語義推斷(MNLI、QNLI、RTE、WNLI)。顯然,GLUE的作者們也意識到了這個問題,于是在SuperGLUE中增加了問答和共指消解兩類任務(wù),SuperGLUE中的任務(wù)組成為:4個QA(BoolQ、MultiRC、COPA、ReCoRD),2個推斷任務(wù)(RTE、CB),1個場景消歧(WiC)和1個共指消解(WSC)。不過我們都知道,即便是增加了SuperGLUE,該基準(zhǔn)也遠(yuǎn)遠(yuǎn)覆蓋不到“通用”的語言理解能力

          無獨有偶,CLUE基準(zhǔn)中,甚至存在著整體分布偏差,例如語義相似度檢測 ACQMC 數(shù)據(jù)集中,數(shù)據(jù)來源于螞蟻金服,其中大面積分布著花唄和借唄。整個數(shù)據(jù)集更加像是純領(lǐng)域的任務(wù),卻冠以通用之名。

          基準(zhǔn)是主觀的

          前面我提到:數(shù)據(jù)集必然受其創(chuàng)造者本身的背景知識所限,也就一定嵌入了其創(chuàng)造者的主觀態(tài)度,所以也不可能存在絕對中立、全面的數(shù)據(jù)集。在工業(yè)應(yīng)用(專用 agent 模型)上,我們是可以允許數(shù)據(jù)集中帶有明顯的 bias 的,因為每個應(yīng)用都有其應(yīng)用范圍??墒窃凇巴ㄓ谩蹦芰υu測中,如果將帶有明顯政治傾向,及主觀價值導(dǎo)向的數(shù)據(jù)集,當(dāng)作中立、科學(xué)的基準(zhǔn)來使用,則是完全不負(fù)責(zé)的行為,必然導(dǎo)致模型誤用。例如,一些公司完全信任 AI 系統(tǒng),使用 AI 系統(tǒng)進行打卡、考評、用藥建議、休假審批(這些看似是應(yīng)用系統(tǒng),但實際由于面向所有人,也具備“通用”屬性)等,正因為其使用訓(xùn)練數(shù)據(jù)的局限性和主觀性,導(dǎo)致模型出現(xiàn)了大規(guī)模的錯誤判斷。

          筆者偶爾也承接一些 ToB 業(yè)務(wù),也深受其害。一方面,做 AI 模型的人都在宣稱,其工作有多么強大、智能、通用,卻導(dǎo)致客戶有過高的估計,而在實際業(yè)務(wù)上,什么都拿不到,自然也做不到好的模型,從而給客戶造成了巨大的落差。

          自然,號稱評估“通用”的基準(zhǔn)中,這類問題必然存在,但“通用”粉飾了一切,以“通用”為幌,大家忽略了必然存在的主觀屬性,仿佛不承認(rèn)它存在,它就自然消失了

          并且,其分布 bias 并不是隨機的,其往往只存在于不同文化背景,也自然對該基準(zhǔn)不具備話語權(quán)的群體中,如LGBT、非白人種族,非西方、歐美文化背景等。

          并且,GLUE/SuperGLUE基準(zhǔn)只是評測了特定語言(英語)的理解能力,而非抽象意義上“通用”的語言能力。

          筆者按:感覺作者在這方面稍顯偏激?!俺橄笠饬x上的語言能力”是一個無法描述清楚的概念,就如同人沒有辦法不使用某一種具體的載體,就表達(dá)自己的知識一樣。作者似乎在形容底層認(rèn)知,但不同語言背景的人,底層認(rèn)知也有從語言而來的差異,例如生活在雪鄉(xiāng)的人,其語言中存在各種形態(tài)的雪的描述詞匯,其對雪的分辨能力則相當(dāng)強,因為語言直接影響了他們的注意力(也就是感知),但這些對應(yīng)于其他地方的人,只是“雪”罷了。所以我們有時也發(fā)現(xiàn),翻譯沒法做到完全的對齊。

          ImageNet中,即便其作者將各種語言文化背景下的數(shù)據(jù),翻譯到最終的英語數(shù)據(jù)集中,也仍不可避免存在 bias。如地理位置類,有約45%的圖片來自于美國,60%以上來自于北美及歐洲的少數(shù)西方國家。但作為無論人口,還是國土面積意義上的大國,來自于中國的數(shù)據(jù)僅有1%,來自于印度的數(shù)據(jù)僅有1.2%。同時還有一個小 bug,由于開發(fā)者們使用了印地語圖片查詢系統(tǒng),而非英語的,則出現(xiàn)了一些非常不同的數(shù)據(jù)。而這份數(shù)據(jù)集本身擴充的成本是相當(dāng)大的,而且無論怎么擴充,也極難達(dá)到其所宣稱的“通用”目標(biāo)。

          危害已經(jīng)出現(xiàn)

          正因為不存在通用的數(shù)據(jù)集,則所有的基準(zhǔn)開發(fā)者們,實際都夸大了其基準(zhǔn)對“通用”能力的評估作用,并將之宣稱為整個領(lǐng)域努力的最終目標(biāo),直接導(dǎo)致研究者們不假思索地去追求算法在該基準(zhǔn)評估下的性能指標(biāo),而忽略了指標(biāo)與真實世界是不匹配的,做出來的算法也無法解決相關(guān)的其他問題。

          當(dāng)科學(xué)研究變?yōu)楦傎?/span>

          在科學(xué)研究中,一味的追求 SOTA,只關(guān)注指標(biāo)數(shù)字的增長,而不去做基于假設(shè)的科學(xué)研究,本身就非常奇怪。學(xué)界苦 SOTA 久矣,本文作者也節(jié)選了部分其他人對 SOTA 風(fēng)氣的批判。

          只對已有的監(jiān)督學(xué)習(xí)策略做各種小修改(tricky),卻在benchmark上性能指標(biāo)上取得增長的無聊(dull) paper 被允許發(fā)表。

          一味追求指標(biāo)甚至是一個道德問題,其最終導(dǎo)向是操縱、游戲和短視。

          實際應(yīng)用中,或許有的分類80%的精度就已經(jīng)足夠了(例如虹膜識別),但是有的分類精度卻要達(dá)到99%甚至更高(如毒蘑菇識別),但是,在“通用”基準(zhǔn)中,不同的數(shù)據(jù)集,卻以相同的方式評估,所有數(shù)據(jù)集的分?jǐn)?shù)取個平均,就草率地成為了“通用”的打分。

          實際上,跨領(lǐng)域的比較假設(shè),是應(yīng)用了范圍相同但意義不同的指標(biāo),所造成的海市蜃樓。性能指標(biāo)分?jǐn)?shù)上,x%的提升無法代表任何實際意義上的能力,無論是通用性,還是什么其他的能力。因為對不同的數(shù)據(jù)集,x%的意義也截然不同,而這些指標(biāo)卻被粗暴地計算在了一起。

          但諷刺的是,比賽、刷榜似乎成為了學(xué)界,甚至工業(yè)界算法研發(fā)或前沿探索的主流,雙腳如同踩在虛空之上,自然也做不出任何可以落地的東西。ImageNet 和 GLUE/SuperGLUE 的基準(zhǔn)作者也很樂于將基準(zhǔn)發(fā)展為比賽,對外公開放榜,號召大家來刷分。

          而這種風(fēng)潮,則必然會導(dǎo)致——

          算法優(yōu)化的關(guān)注焦點被轉(zhuǎn)移

          前面提到,基準(zhǔn)本身是有著相當(dāng)?shù)臍v史意義的。一個亟待解決的問題,如果有相應(yīng)的基準(zhǔn)能夠定量地評估算法的能力,往往也可以吸引研究者們的興趣,大家知識共建,將這個問題解決掉。但前文已經(jīng)論證過,“通用”基準(zhǔn),首先在問題上的定義,就是完全脫離了基礎(chǔ)應(yīng)用,且模糊不清的,那么其基準(zhǔn)也難以成為客觀的評估標(biāo)準(zhǔn)。

          可恰恰是在這樣一個基準(zhǔn)上的性能指標(biāo),成為了該領(lǐng)域成功的標(biāo)志,隨著競爭不斷提升,內(nèi)卷不斷加劇,該基準(zhǔn)收到的關(guān)注也就越來越大,其光芒掩蓋了所有的陰影,最終成為了算法性能的最終解釋。

          基準(zhǔn)也在不斷地影響著主流算法的發(fā)展方向,比如20世紀(jì)60年代,正是計算機下棋如火如荼的時候,整個 AI 屆都在關(guān)注著深度優(yōu)先搜索和極大極小算法,這兩種方法也一度主導(dǎo)了 AI 的發(fā)展。所以,機器學(xué)習(xí)算法發(fā)展的趨勢,一定程度上的確也是由特定的基準(zhǔn)性能驅(qū)動的,而“通用”基準(zhǔn)帶來了什么趨勢呢?

          沒錯,“大力出奇跡”趨勢,我們?nèi)庋劭梢姷目吹?,模型的參?shù)量不斷地增加,訓(xùn)練數(shù)據(jù)規(guī)模不斷地上漲,大模型散發(fā)的威力,使得現(xiàn)如今,模型的大小和通用能力劃上了等號。

          我也曾提到過,負(fù)責(zé)前沿探索的刷分團隊,其成果很多都是兩只腳皆踩在虛空之上。他們在試圖將自己研發(fā)的所謂“算法”落地時,做的事情往往就是:管應(yīng)用方要一份數(shù)據(jù)集,把分?jǐn)?shù)刷上去,超過某些方法,就算是交付了,卻完全不分析問題。刷分的手段包括但不限于搜參數(shù)(提幾百個任務(wù)爆搜,連訓(xùn)幾個 epoch 都要搜),堆大模型,搞集成。不會優(yōu)先考慮工程上是否能接受,是否具備應(yīng)對其他情況的泛化能力,或者這個“算法”是否還有未來成長空間。

          但也正如前文所說,我們也必須承認(rèn),ImageNet 點燃了如今深度學(xué)習(xí)的火爆,而 BERT 也是在 GLUE 上第一次秀了肌肉。

          將基準(zhǔn)指標(biāo)當(dāng)作應(yīng)用的性能

          如今,即是是在商業(yè)營銷策略中,也往往會假如通用基準(zhǔn)的性能,其打分成為了衡量技術(shù)成就的重要依據(jù)?;鶞?zhǔn)性能的重要性被嚴(yán)重扭曲,成為了選擇算法的工具,和部署模型預(yù)期成就的重要標(biāo)志。例如2021年1月,微軟說:“DeBERTa在SuperGLUE上超越了人類性能,被看作是通用AI的重要里程碑”。

          ImageNet 也被同樣視作是商業(yè)模型成功的依據(jù)——以至于曾有為獲得更大的營銷影響力,在此基準(zhǔn)上作弊的事件。

          過分夸大基準(zhǔn)指標(biāo)的性能,則會導(dǎo)致,一些子任務(wù)、子領(lǐng)域上,模型表現(xiàn)不佳,很容易被總體的指標(biāo)所掩蓋,從而導(dǎo)致一個不夠可靠,或不夠安全的 AI 系統(tǒng)被交付使用。最近一些有關(guān)人工智能倫理的討論中,明顯舉出了相關(guān)的 case,如面部識別系統(tǒng)對有色人種的偏見之類的。

          可行的道路

          在前文中我們批判了那么多通用基準(zhǔn)本身的限制,及其所帶來的危害,但我們又不可能放棄使用基準(zhǔn)評測,所以就需要找準(zhǔn)基準(zhǔn)評測在評估模型性能中,真正應(yīng)該扮演什么樣的角色,而不是一味地去修復(fù)、擴展、改善現(xiàn)有通用基準(zhǔn)。畢竟想要去解決“世界上所有的東西”的方法,不是不斷地放新的東西進來。

          評估基準(zhǔn)如果完全脫離了使用情境、定義范圍和特異性,本身就成為了機器學(xué)習(xí)評估的錯誤假設(shè)。所以,我們可以有兩個方向:

          • 按照預(yù)期的能力或應(yīng)用,去開發(fā)、展示、解釋評測基準(zhǔn),去評估具體的、范圍明確的、與情境相關(guān)的任務(wù)。探索基準(zhǔn)指標(biāo)之外,更為廣泛的模型評測目標(biāo)、行為或能力,不同的領(lǐng)域,探索其他可選的評估方法。
          • 采用軟件系統(tǒng)開發(fā)的測試思路,模塊化地測試模型,從而展示出在模型所應(yīng)對的問題空間中,尚存哪些缺陷或偏差,及其所帶來潛在的危害

          也正如我在算法工程師文章中所說,做好 case 分析、歸類,確定問題,做好消融分析,并綜合的考量技術(shù)方案的種種屬性,選擇合適的算法。

          總結(jié)

          現(xiàn)如今,機器學(xué)習(xí)領(lǐng)域在遵循著一個邏輯謬誤:把基準(zhǔn)上的性能指標(biāo)當(dāng)作通用能力提升的證明,然而包羅萬象的數(shù)據(jù)集是不可能存在的。而現(xiàn)在看來,受限的基準(zhǔn)性能或許只能當(dāng)作一個定性的指標(biāo),即證明模型通用能力的必要不充分條件,可也僅僅適用于基準(zhǔn)的數(shù)據(jù)集未超出任務(wù)所描述的能力范圍。

          基準(zhǔn)開發(fā)對機器學(xué)習(xí)發(fā)展仍尤為重要,但其有效性不在于武斷、虛假的“通用性”,而是用來幫助研究者們了解,一些算法為什么能 work,或為什么不 work。如應(yīng)用得當(dāng),不是作為內(nèi)卷的比賽,而是將之落地到具體的情境中,適當(dāng)納入算法的評估,那么它會成為有影響力的算法的重要評估維度。

          而去探索能夠替代基準(zhǔn)數(shù)據(jù)集的角色,首先則需要將視野從“描述全世界的一切”這種狹隘的目標(biāo)中解脫出來。

          一些感想

          在我看來,或許近兩年,SOTA真的是卷不動了。原本,可能今年的小樣本學(xué)習(xí)風(fēng)潮,可能給SOTA內(nèi)卷續(xù)了個命,但沒成想,大廠入場競技,大力出奇跡長期霸榜,學(xué)界也相當(dāng)難。

          我本人也親眼見證了內(nèi)卷:我的一位同事,今年在 TPLinker 的基礎(chǔ)上,做了一些方法上的改進,結(jié)果和 ACL 的一篇論文直接撞了 idea,幾個月的工作付諸東流。從今年的風(fēng)向看,或許真的已經(jīng)卷無可卷了。上半年,Ng老師推出了以數(shù)據(jù)為中心的比賽;EMNLP2021 中,最佳 paper 和杰出 paper 中,談?wù)摂?shù)據(jù)集質(zhì)量的文章比例明顯多了起來;萌屋文章從 ACL’22 投稿情況,速覽當(dāng)下 NLP 研究熱點!中也提到,在新發(fā)表的paper中,數(shù)據(jù)相關(guān)的工作比例越來越高,數(shù)據(jù)的價值越來越重要。

          無獨有偶,12月 Meta 發(fā)表的文章中提到,各種對 transformer 中 attention 的優(yōu)化,雖然在各基準(zhǔn)中跑出了提升,但實際測下來,還是不太行,甚至不如傳統(tǒng)的 attention ,側(cè)面也說明了,有限的基準(zhǔn)給人帶來的誤解。

          這種趨勢,雖然是內(nèi)卷之下無奈的產(chǎn)物,但總歸是走向了相對正軌的發(fā)展道路。我之前在萌屋發(fā)表的文章中,多次強調(diào)著數(shù)據(jù)的重要性,任務(wù)設(shè)計的合理性,基準(zhǔn)指標(biāo)的缺陷。而今,終于在會議上,也被拿上了臺面。誠然本文言論中有偏激的地方,作者的用詞也不可謂不兇狠(筆者添油加醋,也好好陰陽怪氣了一把),但開啟了這方面的討論,總歸是一件好事兒。

          Google 發(fā)表了這篇文章,則也是給了我更多的信心,讓我得以更好地解釋,接下來即將發(fā)表及開源的工作。


          ——The ?End——

          瀏覽 30
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本黄色一区二区 | 欧美乱伦视 | 亚洲一区二区电影网站 | 欧美成人综合色 | www婷婷|