DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過去和未來


什么是基準(zhǔn)?
基準(zhǔn)測(cè)試簡(jiǎn)史
指標(biāo)很重要
考慮下游用例
細(xì)粒度評(píng)估 基準(zhǔn)性能的長(zhǎng)尾 大規(guī)模持續(xù)評(píng)估




考慮更適合下游任務(wù)和語言的度量。
考慮強(qiáng)調(diào)下游設(shè)置權(quán)衡的指標(biāo)。
隨著時(shí)間的推移更新和完善指標(biāo)。
設(shè)計(jì)基準(zhǔn)及其評(píng)估,使其反映真實(shí)世界的用例。
評(píng)估域內(nèi)和域外泛化。
收集數(shù)據(jù)并評(píng)估其他語言的模型。
從語言技術(shù)的現(xiàn)實(shí)應(yīng)用中獲得靈感。



不再使用單一指標(biāo)進(jìn)行性能評(píng)估。
評(píng)估社會(huì)偏見和效率。
對(duì)模型執(zhí)行細(xì)粒度評(píng)估。
考慮如何聚合多個(gè)指標(biāo)。
在基準(zhǔn)中包括許多和/或困難樣本。
進(jìn)行統(tǒng)計(jì)學(xué)顯著性檢驗(yàn)。
為不明確的示例收集多個(gè)注釋。
報(bào)告注釋者協(xié)議。
考慮收集和評(píng)估大型、多樣化、版本化的 NLP 任務(wù)集合。

評(píng)論
圖片
表情
