<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          中醫(yī)藥領(lǐng)域的問(wèn)題生成,阿里天池算法大賽Top1

          共 2252字,需瀏覽 5分鐘

           ·

          2022-06-26 23:47


          來(lái)源:機(jī)器學(xué)習(xí)AI算法工程

          本文約1700字,建議閱讀5分鐘

          任務(wù)是中醫(yī)藥領(lǐng)域的問(wèn)題生成挑戰(zhàn),而問(wèn)題生成屬于NLG中重要的一種應(yīng)用。


          • 問(wèn)題生成任務(wù)需要我們根據(jù)篇章及對(duì)應(yīng)的答案自動(dòng)生成相應(yīng)的問(wèn)題,即“篇章+答案→問(wèn)題”這樣的流程。
          • 訓(xùn)練集由三個(gè)字段(篇章、問(wèn)題、答案)構(gòu)成,測(cè)試集由兩個(gè)字段(篇章、答案)構(gòu)成,其中的問(wèn)題字段需要我們生成。
          • 根據(jù)以上分析,我們可以采用Seq2Seq模型來(lái)端到端地實(shí)現(xiàn)問(wèn)題生成,而模型的輸入為篇章和答案,輸出為問(wèn)題。


          文本長(zhǎng)度分布


          篇章文本長(zhǎng)度在100以下的數(shù)據(jù)較少,長(zhǎng)度區(qū)間400-500的數(shù)據(jù)占比較大。


          問(wèn)題文本長(zhǎng)度主要集中在5-20這個(gè)區(qū)間,長(zhǎng)度40以上的數(shù)據(jù)較少。


          答案文本長(zhǎng)度主要集中在1-100區(qū)間,長(zhǎng)度200以上的數(shù)據(jù)較少。



          分析總結(jié)


          • 訓(xùn)練數(shù)據(jù)量適中,不是很大數(shù)據(jù)量,但是也不算少。
          • 文本長(zhǎng)度:篇章文本最大,其次是答案文本,最后是問(wèn)題文本。
          • 如果只看答案文本,那它的長(zhǎng)度分布應(yīng)該是同分布。
          • 若要將篇章、問(wèn)題和答案拼接進(jìn)行訓(xùn)練,則需要對(duì)其進(jìn)行文本截?cái)啵?/span>
            • 問(wèn)題是要預(yù)測(cè)的部分,并且長(zhǎng)度不是太長(zhǎng),所以可以不進(jìn)行截?cái)啵?/span>
            • 答案是從篇章中截取的,可以適當(dāng)截取短一點(diǎn);
            • 篇章在硬件資源允許的范圍內(nèi),可以盡量截取長(zhǎng)一點(diǎn)。




          核心思路


          • 數(shù)據(jù)預(yù)處理:數(shù)據(jù)清洗(剔除空白字符、剔除帶括號(hào)的英文),處理部分不匹配數(shù)據(jù)(絕大部分答案是從篇章中截取的,不匹配數(shù)據(jù)指答案在篇章中無(wú)法完全匹配到的數(shù)據(jù));
          • 文本截?cái)啵核悸肥瞧轮写鸢杆谖恢玫母浇c問(wèn)題的相關(guān)性最強(qiáng),答案的前面部分信息最多,問(wèn)題文本最長(zhǎng)131個(gè)字符。具體操作是篇章取答案所在位置的前64個(gè)字符和后128個(gè)字符;答案取前64個(gè)字符;問(wèn)題取前131個(gè)字符。
          • 數(shù)據(jù)輸入:訓(xùn)練時(shí)按照“[CLS]篇章[SEP]答案[SEP]問(wèn)題[SEP]”格式輸入。推斷時(shí)按照“[CLS]篇章[SEP]答案[SEP]”格式輸入。如圖1所示。
          • 模型架構(gòu):使用“NEZHA + UniLM”的方式來(lái)構(gòu)建一個(gè)Seq2Seq模型,端到端地實(shí)現(xiàn)“篇章 + 答案 → 問(wèn)題”。如圖2所示。 


          UniLM也是一個(gè)多層Transformer網(wǎng)絡(luò),跟bert類似,但是UniLM能夠同時(shí)完成三種預(yù)訓(xùn)練目標(biāo),如上述表格所示,幾乎囊括了上述模型的幾種預(yù)訓(xùn)練方式,而且新增了sequence-to-sequence訓(xùn)練方式,所以其在NLU和NLG任務(wù)上都有很好的表現(xiàn)。UniLM模型基于mask詞的語(yǔ)境來(lái)完成對(duì)mask詞的預(yù)測(cè),也是完形填空任務(wù)。對(duì)于不同的訓(xùn)練目標(biāo),其語(yǔ)境是不同的。

          1.單向訓(xùn)練語(yǔ)言模型,mask詞的語(yǔ)境就是其單側(cè)的words,左邊或者右邊。
          2.雙向訓(xùn)練語(yǔ)言模型,mask詞的語(yǔ)境就是左右兩側(cè)的words。
          3.Seq-to-Seq語(yǔ)言模型,左邊的seq我們稱sourcesequence,右邊的seq我們稱為target sequence,我們要預(yù)測(cè)的就是target sequence,所以其語(yǔ)境就是所有的source sequence和其左側(cè)已經(jīng)預(yù)測(cè)出來(lái)的target sequence。

          優(yōu)勢(shì):

          1.三種不同的訓(xùn)練目標(biāo),網(wǎng)絡(luò)參數(shù)共享。
          2.正是因?yàn)榫W(wǎng)絡(luò)參數(shù)共享,使得模型避免了過(guò)擬合于某單一的語(yǔ)言模型,使得學(xué)習(xí)出來(lái)的模型更加general,更具普適性。
          3.因?yàn)椴捎昧薙eq-to-Seq語(yǔ)言模型,使得其在能夠完成NLU任務(wù)的同時(shí),也能夠完成NLG任務(wù),例如:抽象文摘,問(wèn)答生成。


          • 緩解Exposure Bias問(wèn)題的策略:1.通過(guò)隨機(jī)替換Decoder的輸入詞來(lái)構(gòu)造“有代表性”的負(fù)樣本;2.使用對(duì)抗訓(xùn)練來(lái)生成擾動(dòng)樣本。
          • 解碼:使用Beam search來(lái)對(duì)問(wèn)題進(jìn)行解碼。
          • 解決顯存不足的方法:由于顯存有限,無(wú)法使用較大的batch size進(jìn)行訓(xùn)練,梯度累積優(yōu)化器可以使用小的batch size實(shí)現(xiàn)大batch size的效果——只要你愿意花n倍的時(shí)間,可以達(dá)到n倍batch size的效果,而不需要增加顯存。
          • 其他Trick:
            • 在單模型(NEZHA-Large-WWM)上使用5折交叉驗(yàn)證。
            • 對(duì)詞表進(jìn)行精簡(jiǎn)(因?yàn)榭偟膖okens大概有2萬(wàn)個(gè),這意味著最后預(yù)測(cè)生成的token時(shí)是一個(gè)2萬(wàn)分類問(wèn)題,但事實(shí)上有接近一半的tokens都不會(huì)分出來(lái),因此這2萬(wàn)分類浪費(fèi)了一些計(jì)算量)。
            • EarlyStopping。
            • 偽標(biāo)簽。



          經(jīng)驗(yàn)總結(jié)


          • 文本截?cái)嗖呗允沟梦谋灸軌蛟跐M足預(yù)訓(xùn)練模型輸入的要求下,較少的損失上下文信息,提分效果顯著。使用該文本截?cái)嗖呗灾埃恢睙o(wú)法提升至0.6+。
          • nezha-large-wwm預(yù)訓(xùn)練模型是我們隊(duì)試過(guò)效果是最好的模型,單個(gè)的nezha-large-wwm加上之前的技巧就能達(dá)到0.64+。nezha-base、nezha-base-wwm和wobert在該任務(wù)上效果相差不多,大約0.63+,roberta-wwm-large-ext、bert-wwm-ext大約0.62+。
          • 使用隨機(jī)替換和對(duì)抗訓(xùn)練能夠緩解Exposure Bias,使用這兩個(gè)trick后效果提升也比較明顯,大約有百分之二提升。
          • 不使用交叉驗(yàn)證,不劃分驗(yàn)證集的情況下,使用全部訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,大約第12個(gè)epoch效果最好。使用交叉驗(yàn)證后效果會(huì)優(yōu)于全量訓(xùn)練的結(jié)果,缺點(diǎn)是訓(xùn)練推斷時(shí)間太長(zhǎng)。
          • 偽標(biāo)簽是一個(gè)比較常用的trick,在該生成任務(wù)上,使用偽標(biāo)簽有細(xì)微的提升,大約萬(wàn)分之二左右。
          • 梯度累積使得能夠用較大的batch size訓(xùn)練large模型,分?jǐn)?shù)上也有細(xì)微的提升。


          編輯:于騰凱






          瀏覽 24
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青娱乐亚洲版在线观看 | 欧美啪啪视频 | 自拍偷拍第3页 | 久久成人 久久鬼色 | 欧美老妇乱伦视频 |