【NLP】醫(yī)學AI又一突破,微軟開源生物醫(yī)學NLP基準:BLURB
By 超神經
內容概要:微軟團隊發(fā)布生物醫(yī)學領域 NLP 基準,命名為 BLURB,已在 arxiv.org 中發(fā)布相關論文,并將其開源。
關鍵詞:生物醫(yī)學 自然語言處理 基準
微軟的研究團隊近日在 arxiv.org 發(fā)布了論文:《Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing 生物醫(yī)學特定領域的語言模型預訓練》,介紹并開源了一個能夠用于生物醫(yī)學領域 NLP 基準,并命名為 BLURB。

論文地址:https://arxiv.org/pdf/2007.15779.pdf
Biomedical Language Understanding and Reasoning Benchmark 的首字母縮寫,即為 BLURB 的命名規(guī)則,翻譯為生物醫(yī)學語言理解和推理基準。
醫(yī)學 NLP 基準,BLURB 身負重任
BLURB 包括 13 個公開可用的數(shù)據(jù)集,涉及 6 個不同的任務。
為了避免偏重多可用數(shù)據(jù)集的任務,如命名實體識別(NER),BLURB 的報告和排名,將所有任務的宏觀平均數(shù)作為主要得分。

圖為 BLURB 中使用的數(shù)據(jù)集、以及
團隊列出的訓練、開發(fā)和測試中的實例數(shù)量
BLURB 排行榜是不分模型的。任何能夠使用相同的訓練和開發(fā)數(shù)據(jù)產生測試預測的系統(tǒng)都可以參與。
團隊表示 BLURB 的主要目標是:降低生物醫(yī)學NLP的準入門檻,幫助加快該領域的進展,能對社會和人類產生積極影響。
生物醫(yī)學 NLP :必須使用域內文本
研究已經表明生物醫(yī)學 NLP 可以在醫(yī)學領域提高數(shù)據(jù)集的準確性。但是在跨學科的數(shù)據(jù)集中,準確性又會大大降低。而由于不同醫(yī)學領域之間(Domain)跨度較大,所以對于 NLP 的預訓練會花費非常多的時間。
微軟研究人員為了提升 NLP 的訓練速度,通過對預訓練和特定任務的微調,對生物醫(yī)學 NLP 應用的影響進行了建模比較,從而評估最適合的預訓練方法。

團隊對域內文本與混合域外文本進行的對照
首先,團隊創(chuàng)建了一個名為「生物醫(yī)學語言理解與推理基準」(BLURB)的基準,該基準側重于 PubMed 提供的出版物,涵蓋了相似問題解答和文本提取之類的任務。
實驗證明,這種對比的方法能夠將 NLP 訓練的速度提升數(shù)倍。
同時,為了鼓勵對生物醫(yī)學 NLP 的研究,研究人員創(chuàng)建了以 BLURB 基準為基準的排行榜,還開源了預訓練模型。以求快速生物醫(yī)學 NLP 能夠早日投入使用。
訪問 https://microsoft.github.io/BLURB/ 或點擊閱讀原文,可訪問 BLURB 項目官網。
—— 完 ——
往期精彩回顧
獲取一折本站知識星球優(yōu)惠券,復制鏈接直接打開:
https://t.zsxq.com/662nyZF
本站qq群1003271085。
加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):
