<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【NLP】調(diào)研|醫(yī)療領(lǐng)域預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)方法

          共 4554字,需瀏覽 10分鐘

           ·

          2022-05-11 05:26

          ? ? 本文基于調(diào)研的 14 篇醫(yī)療預(yù)訓(xùn)練語(yǔ)言模型的論文,總結(jié)了目前設(shè)計(jì)醫(yī)療領(lǐng) 域預(yù)訓(xùn)練語(yǔ)言模型的方法,這些方法主要可以分為三類(lèi):1)基于醫(yī)療領(lǐng)域數(shù)據(jù) 進(jìn)行繼續(xù)預(yù)訓(xùn)練;2)基于醫(yī)療領(lǐng)域數(shù)據(jù)從頭進(jìn)行預(yù)訓(xùn)練;3)基于醫(yī)療領(lǐng)域設(shè)計(jì) 的自監(jiān)督任務(wù)進(jìn)行預(yù)訓(xùn)練。


          ?1???繼續(xù)預(yù)訓(xùn)練

          ??????? BioBERT通過(guò)BERT初始化權(quán)重,基于生物醫(yī)學(xué)領(lǐng)域語(yǔ)料庫(kù)進(jìn)行繼續(xù)預(yù)訓(xùn)練;BlueBERT 通過(guò) BERT 初始化權(quán)重,基于 PubMed 摘要和 MIMIC-III 臨床筆記進(jìn) 行繼續(xù)預(yù)訓(xùn)練;ClinicalBERT 通過(guò) BERT 初始化權(quán)重,基于臨床筆記語(yǔ)料進(jìn)行繼 續(xù)預(yù)訓(xùn)練;SciBERT 采用了兩類(lèi)預(yù)訓(xùn)練方法,一類(lèi)是基于 BERT 在領(lǐng)域語(yǔ)料繼續(xù) 預(yù)訓(xùn)練,一類(lèi)是基于領(lǐng)域語(yǔ)料自建詞表從頭預(yù)訓(xùn)練,其中的語(yǔ)料庫(kù)包括 18%來(lái)自 計(jì)算機(jī)科學(xué)領(lǐng)域的論文全文和 82%來(lái)自廣泛的生物醫(yī)學(xué)領(lǐng)域的論文全文。

          ?2???從頭預(yù)訓(xùn)練

          ??????? PUBMEDBERT 基于領(lǐng)域語(yǔ)料從頭進(jìn)行預(yù)訓(xùn)練;BioELECTRA 基于領(lǐng)域語(yǔ)料 從頭進(jìn)行預(yù)訓(xùn)練,一方面引入了替換 token 預(yù)測(cè)預(yù)訓(xùn)練任務(wù),該任務(wù)訓(xùn)練模型以 區(qū)分真實(shí)輸入 token 和合成生成的 token,在輸入文本中選擇隨機(jī)詞,并用小型 生成器網(wǎng)絡(luò)生成的 token 替換,然后,鑒別器網(wǎng)絡(luò)預(yù)測(cè)輸入 token 是原始的還是 替換的,另一方面去除了下一句預(yù)測(cè)任務(wù);DiLBERT 從 ICD-11、PubMed 和 Wikipedia 構(gòu)建詞表并從頭預(yù)訓(xùn)練模型。

          ?3???域自監(jiān)督預(yù)訓(xùn)練

          ??????? MC-BERT 模型將實(shí)體和語(yǔ)言領(lǐng)域知識(shí)注入表示學(xué)習(xí)中進(jìn)行繼續(xù)預(yù)訓(xùn)練,其 中掩碼策略采用 whole entity masking 和 whole span masking,并使用 NSP 任務(wù)。whole entity masking 是掩碼醫(yī)學(xué)實(shí)體,這些醫(yī)學(xué)實(shí)體是利用中文生物醫(yī)學(xué)知識(shí)圖 譜和生物醫(yī)學(xué)命名實(shí)體識(shí)別來(lái)獲得的。whole span masking 是掩碼醫(yī)學(xué)短語(yǔ),這 些醫(yī)學(xué)短語(yǔ)是通過(guò) Autophrase 和阿里巴巴認(rèn)知概念圖譜獲得的;SMedBERT 將 知識(shí)圖譜中的醫(yī)療實(shí)體和實(shí)體關(guān)系中的結(jié)構(gòu)化語(yǔ)義信息同時(shí)引入到預(yù)訓(xùn)練模型 中。一方面利用 Mention-neighbor Hybrid Attention 獲取 linked-entity 的相鄰實(shí)體 信息,分別引入 type-level 和 node-level 學(xué)習(xí)相鄰實(shí)體對(duì)于 linked-entity 的重要程 度,同時(shí)將結(jié)構(gòu)化語(yǔ)義知識(shí)注入編碼層。另一方面利用 Mention-neighbor Context Modeling 引入鏈接實(shí)體所在上下文的信息,同時(shí)對(duì)相鄰實(shí)體也做 mask 處理。最 后使用 SOP 和 MLM 構(gòu)成總的損失;diseaseBERT 將 BERT 與疾病知識(shí)相結(jié)合, 利用維基百科的結(jié)構(gòu)作為一種弱監(jiān)督信號(hào),將醫(yī)學(xué)術(shù)語(yǔ)及其類(lèi)別作為標(biāo)簽進(jìn)行預(yù) 訓(xùn)練;EMBET 是一種實(shí)體級(jí)知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型,它通過(guò)三個(gè)自監(jiān)督的 任務(wù)捕獲醫(yī)學(xué)術(shù)語(yǔ)之間的細(xì)粒度語(yǔ)義關(guān)系,包括 i)上下文實(shí)體一致性預(yù)測(cè)(在 給定的特定上下文中,實(shí)體是否在意義上等價(jià)),ii)實(shí)體分割(將實(shí)體分割為 細(xì)粒度語(yǔ)義部分)和 iii)雙向?qū)嶓w掩蔽(預(yù)測(cè)長(zhǎng)實(shí)體的原子或形容詞術(shù)語(yǔ)),在 這個(gè)任務(wù)中,屏蔽其中一個(gè)組件,并根據(jù)另一個(gè)組件進(jìn)行預(yù)測(cè),反之亦然;BERT-MK 將知識(shí)圖譜中的任意子圖作為訓(xùn)練示例,子圖中的關(guān)系和實(shí)體被視為 等價(jià)的節(jié)點(diǎn)以進(jìn)行嵌入的聯(lián)合訓(xùn)練,通過(guò)類(lèi)似于訓(xùn)練語(yǔ)言模型的方式將每個(gè)節(jié)點(diǎn) 的更全面的上下文信息合并到所學(xué)習(xí)的知識(shí)表示中。在模型預(yù)訓(xùn)練的過(guò)程中,首 先,在 UMLS 三元組和 PubMed 語(yǔ)料庫(kù)上訓(xùn)練醫(yī)學(xué) ERNIE(MedERNIE)模型, 繼承了 ERNIE-Tsinghua 中使用的相同模型超參數(shù),此外,通過(guò)上述 KRL 方法學(xué) 習(xí)的實(shí)體嵌入被集成到語(yǔ)言模型中來(lái)訓(xùn)練 BERT-MK 模型;UmlsBERT 通過(guò)一種 新的知識(shí)增強(qiáng)策略,在預(yù)訓(xùn)練過(guò)程中集成了領(lǐng)域知識(shí)。更具體地說(shuō),使用統(tǒng)一醫(yī) 學(xué)語(yǔ)言系統(tǒng)(UMLS)元敘詞表對(duì) UmlsBERT 進(jìn)行擴(kuò)充,方式包括:(i)連接 在 UMLS 中具有相同基本“概念”的單詞(ii)利用 UMLS 中的語(yǔ)義類(lèi)型知識(shí) 創(chuàng)建具有臨床意義的輸入嵌入;SAPBERT 是一種生物醫(yī)學(xué)實(shí)體表征的自對(duì)齊預(yù) 訓(xùn)練方案。通過(guò)利用現(xiàn)有的 BERT 模型,學(xué)習(xí)將生物醫(yī)學(xué)名稱(chēng)與 UMLS 知識(shí)圖譜中 的同義詞對(duì)齊,并通過(guò)在線樣本挖掘在一個(gè)小批量中找到難的正/負(fù)對(duì)或三元組, 以便進(jìn)行有效的訓(xùn)練。


          參考資料

          [1]Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

          [2]Peng Y, Yan S, Lu Z. Transfer learning in biomedical natural language processing: an evaluation of BERT and ELMo on ten benchmarking datasets[J]. arXiv preprint arXiv:1906.05474, 2019.

          [3]Huang K, Altosaar J, Ranganath R. Clinicalbert: Modeling clinical notes and predicting hospital readmission[J]. arXiv preprint arXiv:1904.05342, 2019.

          [4]Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[J]. arXiv preprint arXiv:1903.10676, 2019.

          [5]Gu Y, Tinn R, Cheng H, et al. Domain-specific language model pretraining for biomedical natural language processing[J]. ACM Transactions on Computing for Healthcare (HEALTH), 2021, 3(1): 1-23.

          [6]raj Kanakarajan K, Kundumani B, Sankarasubbu M. BioELECTRA: pretrained biomedical text encoder using discriminators[C]//Proceedings of the 20th Workshop on Biomedical Language Processing. 2021: 143-154.

          [7]Zhang N, Jia Q, Yin K, et al. Conceptualized representation learning for chinese biomedical text mining[J]. arXiv preprint arXiv:2008.10813, 2020.

          [8]Zhang T, Cai Z, Wang C, et al. SMedBERT: A knowledge-enhanced pre-trained language model with structured semantics for medical text mining[J]. arXiv preprint arXiv:2108.08983, 2021.

          [9]He Y, Zhu Z, Zhang Y, et al. Infusing disease knowledge into BERT for health question answering, medical inference and disease name recognition[J]. arXiv preprint arXiv:2010.03746, 2020.

          [10]Cai Z, Zhang T, Wang C, et al. EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer, Cham, 2021: 242-257.

          [11]Roitero K, Portelli B, Popescu M H, et al. DiLBERT: Cheap Embeddings for Disease Related Medical NLP[J]. IEEE Access, 2021, 9: 159714-159723.

          [12]He B, Zhou D, Xiao J, et al. Integrating graph contextualized knowledge into pre-trained language models[J]. arXiv preprint arXiv:1912.00147, 2019.

          [13]Michalopoulos G, Wang Y, Kaka H, et al. Umlsbert: Clinical domain knowledge augmentation of contextual embeddings using the unified medical language system metathesaurus[J]. arXiv preprint arXiv:2010.10391, 2020.

          [14]Liu F, Shareghi E, Meng Z, et al. Self-alignment pretraining for biomedical entity representations[J]. arXiv preprint arXiv:2010.11784, 2020.

          END


















          往期精彩回顧




          瀏覽 165
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本黄色美女网站 | 黑人大屌视频 | 中文字幕日产A片在线看 | 一级毛片全部免费播放特黄 | 久久九|