<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【NLP】實(shí)體識(shí)別TENER論文閱讀筆記

          共 3181字,需瀏覽 7分鐘

           ·

          2022-05-15 17:04

          寫(xiě)在前面

          TENER是邱錫鵬老師團(tuán)隊(duì)的工作,其核心在于Attention設(shè)計(jì)時(shí)考慮了對(duì)實(shí)體識(shí)別而言可能重要的三個(gè)因素:方向、距離(相對(duì)位置)以及詞間更sharp的注意力。

          實(shí)際上看過(guò)原文之后,TENERTransformer基本上差不多,簡(jiǎn)單地說(shuō)TENER就是針對(duì)NER場(chǎng)景進(jìn)行Transformer的適配改進(jìn),用邱錫鵬老師的原話“站在巨人的肩上”。

          這篇筆記主要就是針對(duì)這幾處小改動(dòng)進(jìn)行一個(gè)相對(duì)細(xì)致的分析和記錄。

          論文名稱(chēng):《TENER: Adapting Transformer Encoder for Named Entity Recognition》

          論文鏈接:https://arxiv.org/abs/1911.04474

          代碼地址:https://github.com/fastnlp/TENER

          一、問(wèn)題和核心思想

          1. 方向和位置

          Louis?Vuitton?founded?Louis?Vuitton?Inc.?in?1854

          這里直接使用論文給出的一個(gè)例子。通常,在in之后的詞更可能是位置或者時(shí)間,比如這里的1854就是一個(gè)時(shí)間實(shí)體;而在Inc之前的詞更可能代表組織,比如這里的Louis Vuitton Inc,所以詞之間的相對(duì)方向是較重要的。

          另外,詞之間的相對(duì)距離也很重要,因?yàn)橥ǔ?shí)體都是由連續(xù)的字或詞構(gòu)成的,比如這里句中的Louis Vuitton就比句首的Louis Vuitton更可能和Inc構(gòu)成一個(gè)實(shí)體。

          但個(gè)人感覺(jué)這段motivition沒(méi)有說(shuō)清楚太或者說(shuō)它的說(shuō)服力不夠。因?yàn)檫@幾個(gè)點(diǎn)都是考慮在attention計(jì)算的時(shí)候,但attention本質(zhì)上就是計(jì)算詞之間的相似度,然后基于這個(gè)相似度對(duì)詞加權(quán)求和,重新表征詞(簡(jiǎn)單地說(shuō)就是詞向量的轉(zhuǎn)化或者說(shuō)映射)。也就是說(shuō)應(yīng)該解釋的是為什么計(jì)算attention時(shí)要考慮這幾點(diǎn)?這樣的attention有什么特別之處?對(duì)之后的詞表征有什么影響,以至于模型可以正確判斷實(shí)體類(lèi)型以及實(shí)體邊界?

          非要套上去理解,只能這么想:(忽略詞向量)因?yàn)?code style="font-size: 14px;padding: 2px 4px;border-radius: 4px;margin-right: 2px;margin-left: 2px;color: rgb(30, 107, 184);background-color: rgba(27, 31, 35, 0.05);font-family: "Operator Mono", Consolas, Monaco, Menlo, monospace;word-break: break-all;">1854、Louis Vuitton Incin的相對(duì)方向和相對(duì)距離的不同,所以in和它們的相似度不同。所以在最終對(duì)Louis Vuitton Inc1854進(jìn)行表征時(shí),由in貢獻(xiàn)的那部分值不同,使得Louis Vuitton Inc1854具有不同的特性,而這個(gè)特性使得它們可以分別被識(shí)別為組織機(jī)構(gòu)和時(shí)間。

          2. 更sharp的注意力

          對(duì)于每個(gè)詞而言,可能我們僅需要知道較小部分的上下文就可以判別它的實(shí)體類(lèi)別,而不需要關(guān)注所有詞。但是經(jīng)過(guò)transformer后的attention較為平滑,這樣平滑的權(quán)重可能會(huì)帶來(lái)一些噪聲,影響我們的判定。極端點(diǎn),也許我們需要就是內(nèi)積經(jīng)過(guò)softmax后的結(jié)果是非0即1,不要那么“soft”,為了達(dá)到這個(gè)效果,scale參數(shù)可以丟掉。

          二、模型細(xì)節(jié)

          1. Transformer概述

          快速回顧下Transformer,方便后續(xù)TENER的細(xì)節(jié)分析。這里的Attention指的是self-attention,也就是在序列內(nèi)部做Attention以尋找序列內(nèi)部詞間關(guān)系。

          1.1 Self-Attention

          設(shè)是token向量序列(token指字或詞),其中代表序列長(zhǎng)度,代表token向量維度。另外,參數(shù)矩陣、的維度均為,用于將輸入序列映射到不同的空間,則是scale參數(shù)。

          有了這些定義后,我們?cè)賮?lái)看scale的內(nèi)積attention:


          為序列中的第個(gè)token的表征,而則為第個(gè)token的表征,當(dāng)然這里的表征是指經(jīng)、映射過(guò)后的。

          那么表示的是第、個(gè)token之間相似度。最終這個(gè)相似度矩陣由scale參數(shù)的調(diào)節(jié)后,再經(jīng)過(guò)softmax進(jìn)行歸一化就得到了最終的相似度矩陣。最后再乘上就完成了重新表征過(guò)程。

          1.2 Position Embedding

          Transformer本身不能捕捉序列信息,比如我們交換token的順序,但是對(duì)每個(gè)token而言,出來(lái)的attention結(jié)果還是一樣的,那么最終每個(gè)token的新表征也還是一樣的,只是它們的位置變了而已。

          另一方面。我們知道當(dāng)詞的順序變了以后,很有可能語(yǔ)義已經(jīng)變了。另外在不同位置的詞它本身也可能扮演不同的角色。比如開(kāi)頭我們提到的句首和句中的Louis Vuitton

          所以為了引入位置信息,Transformer設(shè)計(jì)了位置表征(Position Embedding):


          這里,而依舊代表token的向量維度。

          2. 方向和距離感知的Attention

          由于TENER主要的改動(dòng)就在Attention 上。那么這部分我們就來(lái)看看原始的Attention有什么問(wèn)題,尤其是位置嵌入有什么問(wèn)題;然后再來(lái)看TENER是怎么去避免那些問(wèn)題的。

          2.1 距離有感但方向無(wú)感的位置嵌入

          根據(jù)式和式,第個(gè)token的位置嵌入


          這里。那么第和第個(gè)token之間的內(nèi)積即為:


          再根據(jù)二角和差公式,最終兩個(gè)token之間基于位置嵌入的內(nèi)積僅取決于相對(duì)偏移量:


          也就是說(shuō)transformer提出的位置嵌入成功地考慮了相對(duì)位置這個(gè)點(diǎn)。但是,相對(duì)方向它卻無(wú)法把控,因?yàn)?span style="cursor:pointer;">,所以這個(gè)內(nèi)積具有對(duì)稱(chēng)性:


          這點(diǎn)看圖更直觀:

          圖1 內(nèi)積距離的對(duì)稱(chēng)性


          2.2 距離有感到無(wú)感

          由式,兩個(gè)token的位置嵌入并不是直接內(nèi)積,而需要先經(jīng)過(guò)一次變換(這里忽略token嵌入部分的計(jì)算,僅看兩個(gè)token位置嵌入部分參與的計(jì)算,注意行列向量的區(qū)別),所以?xún)?nèi)積其實(shí)是:


          這里的區(qū)別僅在于中間多了一個(gè)參數(shù)矩陣。下圖2展示了兩者的區(qū)別:

          圖2 vs


          很明顯,當(dāng)經(jīng)過(guò)query和key的參數(shù)矩陣映射以后,再去與內(nèi)積時(shí),就變得距離無(wú)感了。

          2.3 TENER中的Attention改動(dòng)

          • 位置嵌入部分的改動(dòng)

          transformer里的內(nèi)積計(jì)算其實(shí)是兩部分:(1)token向量部分;(2)位置嵌入部分。token向量部分的計(jì)算沒(méi)什么問(wèn)題,所以保持;而位置嵌入部分的計(jì)算可以稍作修改。

          由式可知:


          這里。我們知道方向無(wú)感主要是因?yàn)?span style="cursor:pointer;">,我們又知道,所以最簡(jiǎn)單粗暴的方式就是把cos換成sin,當(dāng)然論文這里只是換了一半,或者說(shuō)論文這里是插入了sin項(xiàng)


          再代入,考慮經(jīng)過(guò)轉(zhuǎn)換后的token維度為,最終來(lái)自位置嵌入部分的內(nèi)積貢獻(xiàn)為:


          其中:


          即為T(mén)ENER中attention計(jì)算的一部分,當(dāng)然這里的則是一個(gè)參數(shù)。式跟式不能說(shuō)是毫無(wú)關(guān)系,可以說(shuō)是一模一樣了??鋸堃幌?,二者還是有一定的差別,主要就是在刻畫(huà)的對(duì)象。

          是針對(duì)某一位置(如)的token的位置嵌入,而式則可以看作是考慮了兩個(gè)位置(如)的token的相對(duì)距離,所以原文把它稱(chēng)之為相對(duì)位置的嵌入(relative positional encoding)。并且式也同時(shí)考慮了相對(duì)方向:


          • Attention計(jì)算整體改動(dòng)

          我們下面來(lái)看整體上TENER的Attention的改動(dòng)(這部分直接貼原文的公式截圖,但是注意這里有行列向量問(wèn)題):

          重點(diǎn)在式上,等號(hào)右邊的第一項(xiàng)和第四項(xiàng)分別是token向量之間的內(nèi)積以及我們剛剛分析完的位置部分的貢獻(xiàn)。那么中間兩項(xiàng)、又代表什么呢?原文說(shuō)的是the tth token’s bias on certain relative distance and the bias on the jth token,我在這里理解為偏置(就是+b的那個(gè))。但是不明白這第二項(xiàng)為什么不跟第三項(xiàng)一樣,即為什么不是。

          往期精彩回顧




          瀏覽 51
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩日逼视频 | a级毛片出奶水 | 伊人国产在线观看 | 综合第一页| 中文字幕在线观看国产 |