<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          阿里醫(yī)療NLP實踐與思考

          共 9466字,需瀏覽 19分鐘

           ·

          2021-09-22 00:41

          來源:DataFunTalk

          本文約8000字,建議閱讀10+分鐘 
          本文將從數(shù)據(jù)、算法、知識3個層面帶來阿里在醫(yī)療NLP領(lǐng)域的工作、遇到的問題以及相應的思考。



          [ 導讀 ]NLP技術(shù)在智慧醫(yī)療領(lǐng)域有著越來越多的應用場景,本文將從數(shù)據(jù)、算法、知識3個層面帶來阿里在醫(yī)療NLP領(lǐng)域的工作、遇到的問題以及相應的思考。主要內(nèi)容包括:① 阿里醫(yī)療業(yè)務(wù)介紹;② NLP賦能醫(yī)療行業(yè);③ 醫(yī)療+NLP(醫(yī)療NLP本質(zhì)是什么);④ 中文醫(yī)療信息處理標準數(shù)據(jù)集。

          01 阿里醫(yī)療業(yè)務(wù)介紹


          醫(yī)療AI(即深度學習技術(shù))在醫(yī)療領(lǐng)域的應用場景包括:

          • 醫(yī)學影像(國內(nèi)較為成功的醫(yī)療AI公司基本都是醫(yī)學影像方向);
          • 文本信息抽取和疾病預測(我們今天分享的重點);
          • 病患語音識別和機器翻譯(三甲醫(yī)院醫(yī)生用話筒講話,然后ASR語音識別轉(zhuǎn)錄成電子病歷的內(nèi)容,通常用到RNN或Seq2Seq的技術(shù)實現(xiàn));
          • 體征監(jiān)測和疾病風險評估(應用場景包括慢病評估,健康管理等);
          • 新藥研發(fā)(新冠疫情之后逐漸興起,目前該領(lǐng)域較為火爆)
          • 手術(shù)機器人(交叉學科,一般會涉及到增強學習技術(shù))。


          阿里巴巴在醫(yī)療健康賽道有較多布局:

          • 阿里云:面向B端,主要服務(wù)于公衛(wèi)領(lǐng)域如醫(yī)院、衛(wèi)健委等智慧醫(yī)療的應用場景。
          • 阿里健康:可分為兩部分,包括電商售藥和互聯(lián)網(wǎng)在線問診,其中線上問診涉及到的自動問答技術(shù)與NLP強相關(guān)。
          • 螞蟻保險:在智能理賠過程中,患者上傳病歷或收據(jù),經(jīng)OCR識別、文本信息抽取后被用于服務(wù)核保核賠預測模型。
          • 夸克瀏覽器:面向醫(yī)療的垂直搜索。
          • 達摩院:兩個團隊在做醫(yī)療AI的業(yè)務(wù)。①NLP團隊:主要負責NLP原子技術(shù)能力,服務(wù)于阿里集團內(nèi)的一些業(yè)務(wù)方、以及阿里云的生態(tài)合作伙伴。②華先勝博士所負責的城市大腦團隊:主要負責醫(yī)學影像,根據(jù)影像圖片做輔助診療。
          • 天池:天池大賽的定位是針對人工智能技術(shù)尚未成熟的行業(yè),先通過來源于真實場景的數(shù)據(jù)集把問題提出來,然后征募選手來做比賽方案,相當于做一個先期的技術(shù)驗證。天池開放了很多行業(yè)稀缺的數(shù)據(jù)集,尤其是醫(yī)療行業(yè)。

          講者今天的分享主要介紹了在達摩院和在阿里云天池團隊所做的醫(yī)療NLP工作。


          02 NLP賦能醫(yī)療行業(yè)


          NLP處理醫(yī)療行業(yè)數(shù)據(jù)時,首先要分析數(shù)據(jù)的特點,其次選擇適合這批數(shù)據(jù)的模型,或者做一些模型改良。

          醫(yī)療數(shù)據(jù)包括:

          • 電子病歷數(shù)據(jù):是講者處理較多的數(shù)據(jù),特點是數(shù)據(jù)的非標準化和多樣性。
          • 藥品說明書,檢查報告單和體檢報告:這3類數(shù)據(jù)比較規(guī)范。
          • 在線問診,論壇問答:數(shù)據(jù)質(zhì)量較差,其特點是口語多,噪音大。患者就診過程中涉及較多不相關(guān)信息,醫(yī)生的工作主要負責識別、總結(jié)有效信息,然后我們再應用NLP去做后續(xù)的分析處理。
          • 醫(yī)學教科書、科研文獻:數(shù)據(jù)比較規(guī)范。我們應用NLP技術(shù)把文本類內(nèi)容解析出來。


          電子病歷數(shù)據(jù)的主要應用場景是電子病歷質(zhì)檢。電子病歷質(zhì)檢指的是根據(jù)各個省市衛(wèi)建委發(fā)布的電子病歷書寫規(guī)范對醫(yī)生書寫的電子病歷進行質(zhì)檢,其中浙江省的電子病歷書寫規(guī)范比較領(lǐng)先,大概有240多項檢測點。傳統(tǒng)的做法是醫(yī)院設(shè)置專門的質(zhì)檢科,由質(zhì)檢科醫(yī)生將每份病歷按照質(zhì)檢點進行人工檢查,因此存在效率低、查全率低的痛點。阿里云智能電子病歷質(zhì)檢就是幫助醫(yī)院質(zhì)檢科解決這個痛點的產(chǎn)品。舉個例子,在上圖這份病歷中我們檢測到兩個不合規(guī)的點。

          • 一致性矛盾:患者一開始疼痛的部位是“右”上腹,后來經(jīng)過治療“左”上腹疼痛緩解。我們的產(chǎn)品準確的捕捉到患者初始癥狀出現(xiàn)的部位以及治療改善的部位不一致。
          • 診斷依據(jù)不充分:住院病歷中的初步診斷寫的是膽囊結(jié)石,但是下一步診療計劃里卻出現(xiàn)了腹部B超,可見該患者尚不能明確診斷為膽囊結(jié)石。如果臨床高度懷疑膽囊結(jié)石,初步診斷可寫“腹痛待查,膽囊結(jié)石?”,而不能只寫“膽囊結(jié)石”。我們的產(chǎn)品準確的捕捉了診斷依據(jù)的不充分。

          電子病歷是一種半結(jié)構(gòu)化的文本,章節(jié)標題可以認為是結(jié)構(gòu)化的信息,而醫(yī)生書寫的文字是無結(jié)構(gòu)化的信息。針對第一個檢測點,我們需要運用NLP對這種半結(jié)構(gòu)化的信息進行文本結(jié)構(gòu)化,同時對術(shù)語進行歸一化。而針對第二個檢測點,我們需要構(gòu)建醫(yī)學知識圖譜。

          阿里云智能電子病歷質(zhì)檢的核心模塊兒是醫(yī)療實體、屬性的聯(lián)合抽取,醫(yī)學文本的實體識別有如下3種特點:

          • 實體屬性:如當前疾病是現(xiàn)病史(現(xiàn)在發(fā)生的)還是既往史(過去就有的),癥狀是陽性(肯定)還是陰性(否定)。傳統(tǒng)的方法是使用關(guān)系抽取模型,但我們的產(chǎn)品為了追求效率沒有用關(guān)系抽取的方式,而是用了下圖中的模型。
          • 嵌套:如圖中的癥狀中就包含了身體部位,醫(yī)學文本中有大量嵌套類型的實體存在。
          • 非連續(xù):在藥品說明書中大量存在。

          攻堅上述產(chǎn)品核心內(nèi)容過程中,我們的工作成果有以下4個:

          ① 基于實體屬性構(gòu)建模型:

          我們選擇了一個非常樸素自然的idea,即span-based模型(邱錫鵬老師團隊最近推出的unified model可以把所有的情況cover掉,感興趣的可以去了解一下)。該模型采用BERT作為語義建模模型,取一個start位置,再取一個end位置去形成一個span,如圖中W1-W2或W3-W6就是1個span。我們通過枚舉所有的span去學習span的表示,模型的特點是可以天然的解決嵌套實體類型,接下來再對span表示去做分類,采用MLP或其他的分類方法進行實體類別判斷。

          屬性判斷是在此基礎(chǔ)上再多一個分支判斷,這樣一個非常簡單的聯(lián)合學習的框架就是span-based backbone模型,其最下面一層是embedding 層(線上的話我們會應用預訓練模型),上面一層是文本表示層,再上面一層是分類層。這里先拋出了一個問題,枚舉span會導致模型的復雜度為O(N^2),與傳統(tǒng)模型相比其復雜度較高,那么如果想將其用于線上的話,應該怎么處理?


          講者的答案是要對這個模型做改良(2020年講者將其工作成果發(fā)表在AAAI上)。如上圖所示,改良span-based模型的motivation是增強span的表示。這里主要借鑒了MRC的思路,即把start及end形成一個span的概率設(shè)計進來,我們通過計算“start的概率”ⅹ“end的概率”ⅹ“span表示的概率”進行最終的判斷。

          這個模型的benefit是在推理階段進行加速,通過為“start的概率”和“end的概率”設(shè)定閾值(高于閾值將被預測,而低于閾值會被剝離掉),將模型復雜度由O(n^2)降為O(mⅹN)。m表示句子里的實體個數(shù),N表示句子token的長度,這樣在線上應用的話,效率還是非常高的。圖中的表格是AAAI20的實驗結(jié)果,之后我們又不斷探索其他模型,在某些數(shù)據(jù)集上結(jié)果已經(jīng)超過了這個實驗結(jié)果。


          ② 基于嵌套實體構(gòu)建模型:


          我們針對醫(yī)學嵌套實體的特點開展了很多研究的工作,上圖是我們發(fā)表在AAAI2021的一個工作。我們將嵌套 NER識別問題看作是經(jīng)典的句法成分分析(constituent parsing)問題, 根據(jù)嵌套實體的特點將其視為部分觀察(partial observed)到的樹,進行選區(qū)解析,并使用部分觀察到的 TreeCRF 對其進行建模。具體來說,將所有標記的實體span視為選區(qū)樹中的觀察節(jié)點(黑點),將其他跨度視為潛在節(jié)點(白點)。該模型其中的一個優(yōu)點是,實現(xiàn)了一種統(tǒng)一的方式來聯(lián)合建模觀察到的和潛在的節(jié)點。而另外一個優(yōu)點是,在進行選區(qū)分析時,通過Batchfied將模型復雜度從O(n^3)降為O(nⅹlogn)。



          ③ 醫(yī)學術(shù)語歸一化:

          是醫(yī)療行業(yè)領(lǐng)域里面非常重要、非常核心的任務(wù),這是因為同一種診斷、手術(shù)、藥品、檢查、化驗、癥狀可能有多達幾十到上百種不同的寫法。比如,診斷“上感”,也可以稱為“上呼吸道感染”,ICD編碼是J06.903。診斷“膽囊結(jié)石”=”結(jié)石性膽囊炎”=“膽囊結(jié)石伴膽囊炎” ,ICD編碼是K80.002。藥品“氟哌酸”=“諾氟沙星”,國藥準字H10910059。能把這個問題解決好,是一個非常有挑戰(zhàn)的工作。

          為了實現(xiàn)醫(yī)學術(shù)語歸一化,我們分兩步進行。如上圖所示,第一步Retrieval,從詞典里面通過BM25算法篩選候選詞;第二步ReRank,通過預訓練語言模型(PTLM,指的是Pre-trained Language Model)如Bert進行排序,其中mention就是要歸一化的原詞,而concept則是我們這邊篩出來一些候選詞,然后進行打分,分數(shù)比較高的將作為備選方案。


          醫(yī)學術(shù)語歸一化的技術(shù)在我們的業(yè)務(wù)場景里面用的還是比較多的。第一種是跟大家生活息息相關(guān)的醫(yī)保或商保的核算,其主要根據(jù)ICD編碼進行DRGs付費及核算。第二種是數(shù)據(jù)治理,例如不同醫(yī)院間的數(shù)據(jù)互聯(lián)互通。第三種是醫(yī)學科研統(tǒng)計,如醫(yī)生要篩選“2型糖尿病”的患者來做隊列,“II型糖尿病”也要被識別成同一個術(shù)語。


          ④ 合理用藥判斷:

          是PTLM應用的另一個場景。例如盡管開塞露的藥品說明書的適應癥只有便秘,但醫(yī)生給診斷是腸梗阻的患者使用開塞露也是合理的。這是因為雖然醫(yī)生的診斷與藥品說明書字面上不match,但腸梗阻實際上會導致便秘,所以經(jīng)過推理醫(yī)生用藥是合理的,而這個推理過程用到的就是醫(yī)學知識。

          另外合理用藥還涉及到用法及劑量的合理,如診斷為“成人不能進食”的患者需要鼻飼給藥,兒童用藥需要根據(jù)體重計算劑量,還有藥物需要首劑負荷用藥。因此我們現(xiàn)在的工作是將說明書等原始文本,用文本生成的方法轉(zhuǎn)化成邏輯表達式(logic expression),如決策樹等。因為實驗結(jié)果目前在投稿階段,所以本文就先不展示模型了。此外講者提出一個問題,醫(yī)學知識圖譜是醫(yī)學知識最基礎(chǔ)的一種知識表示方式,而一個全面和專業(yè)的醫(yī)學知識庫需要融合多種知識表示方式,那么如何用一個新的結(jié)構(gòu)來表示醫(yī)學知識庫呢?


          03 醫(yī)療+NLP(醫(yī)療NLP本質(zhì)是什么)



          醫(yī)療NLP的本質(zhì)是醫(yī)療,如果把NLP比做錘子的話,那么醫(yī)療領(lǐng)域相關(guān)問題就是釘子,我們要做的就是拿著錘子找釘子。我們前期做的一些嘗試工作就靠近醫(yī)學本質(zhì)(偏臨床一些),包括醫(yī)學臨床試驗結(jié)果預測模型的建立以及融入知識的醫(yī)學預訓練語言模型的建立。


          醫(yī)學臨床試驗結(jié)果預測模型的建立:

          受疫情的啟發(fā),我們做了一個比較有意義的工作,即研發(fā)醫(yī)學臨床試驗結(jié)果預測模型。臨床試驗是循證醫(yī)學的一個重要組成部分,主要目的是驗證某種干預手段(手術(shù)、化療、放療或藥物)是否有效。臨床試驗首先需要召集很多志愿者或患者,然后做對照試驗,最后統(tǒng)計得出結(jié)果,整個試驗過程比較漫長。設(shè)計有缺陷或者難以成功的臨床試驗占用了寶貴的病人資源及珍貴的時間,可能會使亟待實施的臨床試驗因招募不到足夠的患者或時間的緊缺而被迫終止。

          所以,研究者如果在臨床試驗方案設(shè)計階段就就預測出臨床試驗的結(jié)果,并優(yōu)先進行成功概率較高的臨床試驗是非常有意義的工作。舉個例子,美國吉利德科學公司研發(fā)的針對MERS和SARS的藥品瑞德西韋曾被科學家們認為是對抗新冠病毒最有希望的藥物,這是因為MERS、SARS和新冠病毒同屬冠狀病毒科且在埃博拉(另一種冠狀病毒)感染患者的緊急治療中也積累了有效的臨床結(jié)果,這為新冠疫情篩選新藥提供了方向。科學家的這種思考是根據(jù)既往的研究經(jīng)驗和醫(yī)學知識得出的,這使得在臨床試驗開展前評估臨床試驗所研究問題的可行性成為可能。

          NLP可以基于科學家們的研究經(jīng)驗以及現(xiàn)有的醫(yī)學知識來輔助地預測臨床試驗的結(jié)果,從而大大提高臨床試驗實施的效率,由此我們抽象出一個問題,即BPICO。B是Background(研究背景,如研究經(jīng)驗、醫(yī)學知識),P是Population(或者Patient,代表試驗組人群,如新冠患者),I是Intervention(干預手段,如瑞德西韋),C是Comparison(對照組,如安慰劑),O是Outcome(需要觀測的試驗指標,如血氧飽和度)。總的來說,就是首先給出background,然后給定患者,最后比較治療方案相對于對照方案的觀測指標是上升/下降/不變,上升代表有效,下降或不變代表無效。

          我們的工作是把上述問題BPICO轉(zhuǎn)化成語言模型,即基于大規(guī)模隱式臨床證據(jù)預訓練的模型EBM-Net(隱式證據(jù)指的是含有“than”,“greater”,“l(fā)ower”的試驗結(jié)果),如下圖所示。Pubmed等數(shù)據(jù)庫的文獻里面會有臨床試驗,我們把其中有對比關(guān)系的句子(比如說含有“greater”的句子)抽取出來,并把中間的比較詞mask掉,向構(gòu)建好的模型輸入給定的兩組數(shù)據(jù)(一個是對照組,一個是試驗組),然后推斷它們之間被mask的關(guān)系。

          接下來,我們進一步改進了上述模型。我們對調(diào)了偏序關(guān)系,lower變成greater,greater變成lower,即先用正序的隱式證據(jù)預測其結(jié)果,再用反序的隱式證據(jù)預測相反的結(jié)果。這樣一來,加入反序的例子將有利于模型學到治療組和對照組之間的比較,而不是語言模型里的共現(xiàn)關(guān)系,使得模型更健壯。

          總得來說,當我們固定了想要研究的疾病人群(P)和觀察指標(O)后,可以固定以現(xiàn)有的標準治療為對照(C),遍歷每種可能的新型治療方式(I)以及其相關(guān)的背景介紹(B),用模型預測其成功的概率,優(yōu)先選取所有可能的治療方式中成功概率高的做臨床試驗。上述工作成果被EMNLP2020錄取,其實際的應用場景可進一步擴展到新藥研發(fā)及老藥新用。


          融入知識的醫(yī)學訓練語言模型的建立:

          區(qū)別于通用文本,醫(yī)學文本有獨特的術(shù)語和風格;并且醫(yī)學領(lǐng)域中已經(jīng)構(gòu)建了含有大量醫(yī)學實體和知識。基于這兩點,該工作首先在英文領(lǐng)域里進行了嘗試,提出了KeBioLM來增強醫(yī)學預訓練模型。KeBioLM利用醫(yī)學論文數(shù)據(jù)庫PubMed作為訓練語料,通過SciSpaCy將自由文本與UMLS知識圖譜中的醫(yī)學實體知識相結(jié)合。KeBioLM含有兩個Transformers層:第一個層用于從文本中提取醫(yī)學實體并學習實體表示;第二個層用于融合文本和實體的信息來增強文本表示,如圖所示。

          盡管上述模型在英文領(lǐng)域有效果,但在中文領(lǐng)域里效果反而下降,主要原因可能是中文醫(yī)學知識庫未成體系,所以如何構(gòu)建中文醫(yī)學知識庫是需要進一步探討的。


          04 中文醫(yī)療信息處理標準數(shù)據(jù)集


          在中文醫(yī)療信息處理標準數(shù)據(jù)集相關(guān)工作中,講者簡要介紹了3個方面。


          醫(yī)療行業(yè)缺乏標準數(shù)據(jù)集,目前公開的中文醫(yī)療數(shù)據(jù)集主要有3個來源,即CCKS/CHIP會議組織的學術(shù)評測任務(wù), 競賽類醫(yī)療數(shù)據(jù)集(如天池大賽)和部分醫(yī)學論文數(shù)據(jù)集。同時,中文醫(yī)療NLP暫無多任務(wù)評測基準榜單,業(yè)界已有的GLUE/SuperGLUE/CLUE(中文領(lǐng)域)以及BLURB(微軟開發(fā)的醫(yī)療榜單)均推動了領(lǐng)域技術(shù)的快速發(fā)展。在此背景下,由天池平臺聯(lián)合中國中文信息學會醫(yī)療健康與生物信息處理專業(yè)委員會在合法開放共享的理念下發(fā)起了中文醫(yī)療信息處理挑戰(zhàn)榜CBLUE榜單(Chinese Biomedical Language Understanding Evaluation Benchmark),榜單任務(wù)包括醫(yī)學信息抽取、醫(yī)學問答、醫(yī)學文本分類和醫(yī)學術(shù)語歸一化等,目的是推動中文醫(yī)學NLP技術(shù)和社區(qū)的發(fā)展。榜單上線后比較受關(guān)注,截止7月底,已收到400多組打榜申請,并且150多隊伍成功提交了打榜結(jié)果,打榜隊伍涵蓋了產(chǎn)學研界的知名機構(gòu)。

          CBLUE地址:

          https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge


          天池數(shù)據(jù)集:

          天池平臺在舉辦天池大賽的同時,我們也開放了很多數(shù)據(jù)集。天池數(shù)據(jù)集的定位是做專業(yè)的科研數(shù)據(jù)集平臺。和競品相比天池數(shù)據(jù)集的特點是涵蓋了上百個行業(yè)稀缺數(shù)據(jù)集。部分行業(yè)如電商、金融、物流的數(shù)據(jù)集均來源于真實的脫敏過的阿里真實業(yè)務(wù)場景, 比如天池團隊與這次會議主持人林俊旸老師就聯(lián)合開放了一個多模態(tài)理解與生成的評測榜單MUGE(Multimodal Understanding and Generation Evaluation Benchmark), 這些數(shù)據(jù)集/挑戰(zhàn)榜開放的目的是促進相關(guān)領(lǐng)域技術(shù)的研究發(fā)展。

          MUGE地址:
          https://tianchi.aliyun.com/specials/promotion/mugemultimodalunderstandingandgenerationevaluation


          05 問答環(huán)節(jié)


          Q:醫(yī)療數(shù)據(jù)一般是在內(nèi)網(wǎng)文件當中,達摩院是怎么解決數(shù)據(jù)的問題?

          A:首先醫(yī)療數(shù)據(jù)我們是拿不到的,雖然我們和醫(yī)院合作了很多模型,但數(shù)據(jù)的歸屬權(quán)屬于醫(yī)院,數(shù)據(jù)都是基于內(nèi)網(wǎng)去展開的。一般我們會找一些類似的語料(維基百科、論壇)來做模擬,也在嘗試一些保護數(shù)據(jù)安全的技術(shù)方案如聯(lián)邦學習來做模型改進。

          Q:醫(yī)療NLP的標注需要比較強的專業(yè)知識,達摩院的標注是如何開展的?

          A:我們跟天貓精靈團隊合作,他們的標注平臺對接了很多標注專家,有醫(yī)學生、護士,還有一些真正的醫(yī)生,我們數(shù)據(jù)標注基本還是以專家為主。算法人員也會參與到標注里面去。舉個例子,醫(yī)生從專業(yè)知識角度來標注的話,會將一個很長的句子標注成一個癥狀或者一個診斷,但對于模型來說其實非常不友好,所以我們進行標注的時候,一般都是算法人員和專家一塊來把關(guān)的。以保證標注的準確度和專業(yè)度,還要保證模型上線落地的效果。

          Q:CBLUE后續(xù)還會引入哪一些任務(wù)類型?

          A:CBLUE是我們和CHIP(China Health Information Procesing Conference)學會共建的。2.0版計劃在今年11月份推出。2.0會拓寬任務(wù)類型(如增加NLG類型任務(wù))和增加任務(wù)數(shù),大概會擴展到15到16個評測任務(wù)。提到生成類數(shù)據(jù)集,在醫(yī)學領(lǐng)域里生成技術(shù)的應用還是有的,但為什么生成技術(shù)這塊兒沒有太多標準化的數(shù)據(jù),原因主要還是在生成的評估指標。雖然生成的是通順的,也符合語法邏輯的,但它其實不符合醫(yī)學常識的,后續(xù)需要醫(yī)學NLP社區(qū)來共同解決這個問題。

          Q:CBLUE存在標注不全,從模型的角度上如何改進?

          A:首先醫(yī)學領(lǐng)域的標注是非常困難的,不同標注專家對同一份標注規(guī)范會有不同的理解,很難保證完美的一致性。

          CBLUE榜單在上線前,我們基本上是會檢查過一次的,除了把有些特別明顯的錯誤挑出,還有把一些不太健康的語料,如來源于夸克搜素的語料(搜索是千奇百怪的)剔除掉。數(shù)據(jù)質(zhì)量是一個需要長期優(yōu)化的問題。

          在榜單上線后,我們也收集打榜選手的反饋,比如大家覺得有一些漏標的情況。我們也跟及時反饋給每個數(shù)據(jù)的提供單位,來保持緊密合作的關(guān)系。在2.0發(fā)布的時候,我們也會更新現(xiàn)有數(shù)據(jù)集中有缺陷的標注。數(shù)據(jù)集質(zhì)量的提升是一個長期的工作。

          CBLUE的上線,我們和CHIP學會做了非常多的努力,期待能結(jié)合社區(qū)的力量一起把CBLUE建設(shè)的更好。

          Q:CBLUE能否推進開放一些脫敏的病歷數(shù)據(jù)集?

          A:國家的法律法規(guī)規(guī)定病歷數(shù)據(jù)屬于患者個人,醫(yī)院和醫(yī)生都沒有權(quán)利去使用這個數(shù)據(jù),所以直接開放脫敏病歷是不太可行的。

          Q:是否考慮做多模態(tài)的榜單?

          A:是有這個規(guī)劃的,但不會放到CBLUE榜單里面,而會新起一個榜單。

          Q:術(shù)語標準化怎么做?

          A:我們目前是在中文領(lǐng)域上去做術(shù)語歸一化的。它是一個框架。第一步的話就是粗排即檢索。我們有標準詞庫,一般來說是ICD詞典。從詞典里選出TOP10或TOP20的候選詞。第二步做精排即rerank,mention就是歸一化的原詞,而concept是候選詞,每一個候選詞都會經(jīng)過Bert打分,按照置信度排序選出TOP3。

          Q:術(shù)語歸一化在做rerank的時候大概用了多少數(shù)據(jù)來做訓練?

          A:每一種類型的話都不一樣。診斷方面是4,000多條診斷的數(shù)據(jù),而手術(shù)方面是參照CHIP數(shù)據(jù)集的標注規(guī)范,我們自己標注了近三萬條。每一類術(shù)語歸一都分別訓練單獨的模型。檢查化驗這兩個是比較麻煩的,因為國家沒有標準規(guī)范,一般來說電子病歷廠商(如東軟、衛(wèi)寧)是有一個標準庫的,我們第一步就是基于一些中心的三甲醫(yī)院,去建檢查檢驗庫的標準詞典。

          Q:數(shù)據(jù)治理在解決映射問題的時候是怎么去解決數(shù)據(jù)標注的問題的?

          A:術(shù)語歸一化中我們一般是給出top3的結(jié)果,然后讓醫(yī)生、審核人員或數(shù)據(jù)治理人員去做要判斷。數(shù)據(jù)標注時如果有編碼規(guī)范表(ICD詞典)的話,其實相對來說還是比較好標注的。ICD編碼表的特點是分段的,有一級二級三級這樣的類目的。

          我們比較期望能直接映射到最下面層級的類目上的,但如果實在是搞不定的話,或?qū)嵲谂袛嗖涣说脑挘梢酝壔蛘咴偕弦患壞夸浬先プ鰳俗ⅰUw來說在ICD上的標注,經(jīng)專家測評后的準確率相對來說是比較高的。檢查化驗其實沒有統(tǒng)一的標準規(guī)范的,一般來說的話都是基于一個區(qū)域去建標準規(guī)范。如果我們基于一些區(qū)域即一些中心的三甲醫(yī)院來制定標準的話,那么在區(qū)域里面它的認可度還是比較高的。

          Q:近百種類別的細粒度,實體識別就有沒有什么比較好的方法?

          A:我們做了20幾種實體,和9種屬性,可能還沒有達到上百種。分享一下我們上線的效果,在電子病歷文書類型上,最終F1得分在70到80之間。在一些學術(shù)數(shù)據(jù)集上(CCKS,4類實體類型),用我們這個模型的話,大概是已經(jīng)上到91了。講者的建議是,第一點根據(jù)你的業(yè)務(wù)場景去做,你是不是真的要去標這么多類型,類似我們病歷質(zhì)檢的簡單的情景需求,可能實際上都不需要30多種實體。

          我們這30多種實體類型其實服務(wù)了很多的業(yè)務(wù)場景,包括病歷質(zhì)檢、 DRGS、健康檔案。百度相應的競品的實體類型差不多是50多種。第二點這種細粒度怎么去做。先找一些中心實體,再用一些后處理或者規(guī)則的手段,挖一些更細粒度的實體。我們在上模型前有預處理階段,模型走完以后,還要加一些后續(xù)的規(guī)則,上線后還有一些人工干預的機制等。這是一個體系,不是僅用模型就可以的。

          Q:實體屬性的話都是轉(zhuǎn)化成這種嵌套NER,沒有做關(guān)系抽取嗎?

          A:是的。沒有考慮關(guān)系抽取的模型是因為考慮到關(guān)系抽取的在線復雜度會比較高。我們是統(tǒng)一到一個框架上的,它滿足我們業(yè)務(wù)需求的同時也順帶把其他實體給解決掉了。我們這個框架在線上運行效率相對來說是比較可觀的。

          Q:病歷抽取信息的時候有沒有用閱讀理解的方法?性能是怎么樣的?

          A:MRC的方法中,李紀為老師在去年ACL上的一個工作達到了一個比較好的SOTA。我們其實做過調(diào)研,我們做研究的時候也對比過李老師的工作,但實際上線的時候是沒有這樣去用。主要考慮的因素是性能,因為醫(yī)院機器是比較弱的,一般都是兩核4G的或者四核8G的機器,且兩核4G的比較多一些。所以最終的話,雖然我們研究過MRC,但是并沒有把它上線。

          Q:術(shù)語標準化里邊的癥狀有沒有相應的標準,前期出牌具體怎么做的,有沒有用一些規(guī)則?

          A:癥狀這塊其實是沒有標準的。我們現(xiàn)在是這樣解決癥狀的,第一步先看它是否在ICD表里面,如果有就把它并入疾病里,如果沒有就定義為癥狀。我們基于歷史經(jīng)驗已經(jīng)積累了一些癥狀的詞匯,但同時我們針對各專科也繼續(xù)進行專科癥狀詞匯的積累。癥狀這方面的詞匯我們內(nèi)部在用,沒有公開。


          今天的分享就到這里,謝謝大家。

          分享嘉賓:



          編輯:黃繼彥

          校對:汪雨晴

          瀏覽 77
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  就去操逼伊人 | 精品日韩在线 | 中文字幕国产av 中文字幕国产豆花 | 91精品人妻一区二区三区蜜桃 | 国产偷窥盗摄精品 |