DeepMind研究科學(xué)家:NLP基準(zhǔn)測試的現(xiàn)在、過去和未來


什么是基準(zhǔn)?
基準(zhǔn)測試簡史
指標(biāo)很重要
考慮下游用例
細(xì)粒度評估
基準(zhǔn)性能的長尾 大規(guī)模持續(xù)評估




考慮更適合下游任務(wù)和語言的度量。
考慮強調(diào)下游設(shè)置權(quán)衡的指標(biāo)。
隨著時間的推移更新和完善指標(biāo)。
設(shè)計基準(zhǔn)及其評估,使其反映真實世界的用例。
評估域內(nèi)和域外泛化。
收集數(shù)據(jù)并評估其他語言的模型。
從語言技術(shù)的現(xiàn)實應(yīng)用中獲得靈感。



不再使用單一指標(biāo)進行性能評估。
評估社會偏見和效率。
對模型執(zhí)行細(xì)粒度評估。
考慮如何聚合多個指標(biāo)。
在基準(zhǔn)中包括許多和/或困難樣本。
進行統(tǒng)計學(xué)顯著性檢驗。
為不明確的示例收集多個注釋。
報告注釋者協(xié)議。
考慮收集和評估大型、多樣化、版本化的 NLP 任務(wù)集合。
原文鏈接:https://ruder.io/nlp-benchmarking/
作者簡介:
SEBASTIAN RUDER,是倫敦 DeepMind 語言團隊的一名研究科學(xué)家。
2015-2019年就讀于愛爾蘭國立高威大學(xué),工程與信息學(xué)院,自然語言處理博士畢業(yè)。
2017.4-2017.6在哥本哈根大學(xué),自然語言處理組,計算機科學(xué)系研究訪問。
2014.09-2015.01愛爾蘭都柏林三一學(xué)院,海外學(xué)期,計算機科學(xué)與統(tǒng)計學(xué)院,計算機科學(xué)與語言
2012.10-2015.09就讀于Ruprecht-Karls-Universit?t Heidelberg 德國海德堡計算語言學(xué)研究所,文學(xué)學(xué)士計算語言學(xué)、英語語言學(xué)。
SEBASTIAN RUDER在學(xué)習(xí)期間,曾與Microsoft、IBM 的 Extreme Blue、Google Summer of Code和SAP等機構(gòu)合作。他對 NLP 的遷移學(xué)習(xí)使 ML 和 NLP 被大眾所了解。

