<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          理解NLP中的屏蔽語言模型(MLM)和因果語言模型(CLM)

          共 1491字,需瀏覽 3分鐘

           ·

          2021-07-03 12:51

          來源:DeepHub IMBA

          本文約1100字,建議閱讀7分鐘 
          本文與你討論兩種流行的訓練前方案,即MLM和CLM。

          大多數(shù)現(xiàn)代的NLP系統(tǒng)都遵循一種非常標準的方法來訓練各種用例的新模型,即先訓練后微調(diào)。在這里,預處理訓練的目標是利用大量未標記的文本,在對各種特定的自然語言處理任務(如機器翻譯、文本摘要等)進行微調(diào)之前,建立一個通用的語言理解模型。



          在本文章中,我們將討論兩種流行的訓練前方案,即掩蔽語言建模(MLM)和因果語言建模(CLM)。

          屏蔽語言模型解釋


          在屏蔽語言建模中,我們通常屏蔽給定句子中特定百分比的單詞,模型期望基于該句子中的其他單詞預測這些被屏蔽的單詞。這樣的訓練方案使這個模型在本質(zhì)上是雙向的,因為掩蔽詞的表示是根據(jù)出現(xiàn)的詞來學習的,不管是左還是右。你也可以把它想象成一個填空式的問題陳述。


          下面的圖顯示了更詳細的視圖與損失計算步驟:


          在這里,被屏蔽詞的表示可以像BERT和其他變體一樣是基于注意力的,或者你也可以不這樣設計它?;讦?注意權重)的分布可以權衡其他的表示輸入的單詞學習表示被遮蔽的詞,例如-α= 1將給予同等重視,周圍的單詞(也就是說,每個詞將遮蔽平等的貢獻表示)。

          因果語言模型解釋


          因果語言模型,這里的思想是預測一個給定句子中的蒙面標記,但與MLM不同,這個模型被只考慮發(fā)生在它左邊的單詞來做同樣的事情(理想情況下,這個可以是左的或者右的,想法是使它是單向的)。這樣的訓練方案使得這種模式在本質(zhì)上是單向的

          正如您在下面的圖中可以看到的,該模型預計將根據(jù)出現(xiàn)在其左側(cè)的單詞預測句子中出現(xiàn)的掩碼標記?;谀P蛯嶋H標簽的預測,計算交叉熵損失并反向傳播來訓練模型參數(shù)。


          下面的圖顯示了更詳細的視圖與損失計算步驟:


          在這里,屏蔽詞的表示可以是基于注意力的,就像GPT和變體一樣,或者你也可以不這樣設計它,就像我們在LSTM里使用它一樣?;讦恋姆植?見圖)你可以權衡其他的表示輸入的單詞學習表示被遮蔽的詞,例如-α= 1將給予同等重視,周圍的單詞(也就是說,每個詞將平等貢獻了遮蔽表示)。

          這些系統(tǒng)也被稱為解碼器模型,因為在典型的編碼器-解碼器架構中,如機器翻譯、文本摘要等,解碼器(文本生成器)的工作原理類似。

          何時使用?


          當目標是學習輸入文檔的良好表示時,MLM 損失是首選,而當我們希望學習生成流暢文本的系統(tǒng)時,CLM 是首選。此外,從直覺上看,這是有道理的,因為在為每個單詞學習良好的輸入表示時,您想知道它出現(xiàn)的單詞是左還是右,而當您想學習生成文本的系統(tǒng)時,您只能看到什么到目前為止看到了什么,您已經(jīng)生成了所有內(nèi)容(就像人類的寫作方式一樣)。因此,制作一個在生成文本的同時也可以窺視另一側(cè)的系統(tǒng)可能會引入限制模型創(chuàng)造力的偏差。

          盡管在訓練具有編碼器和解碼器的整個架構時,您經(jīng)常會發(fā)現(xiàn) MLM 和 CLM 損失。兩者都有其優(yōu)點和局限性,一種稱為 XLNet 的新模型使用置換技術來利用兩全其美(MLM 和 CLM)。

          作者:Prakhar Mishra
          原文地址:https://towardsdatascience.com/understanding-masked-language-models-mlm-and-causal-language-models-clm-in-nlp-194c15f56a5

          編輯:黃繼彥


          瀏覽 75
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  三级片天天 | 色老板视频凹凸精品视频 | 大屌视频在线观看 | 91人妻最真实刺激绿帽 | 青青草视频涩情 |