<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NLPer 如何做關(guān)鍵詞抽取

          共 2164字,需瀏覽 5分鐘

           ·

          2021-07-01 12:26

          大家好,我是 DASOU;
          原來對(duì)公眾號(hào)的想法是做大做好,走上五百強(qiáng),囧。
          現(xiàn)在發(fā)現(xiàn)平衡工作和生活及公眾號(hào)太難了,所以之后公眾號(hào)我變?yōu)椴欢ㄆ诟?,?nèi)容上也是最大可能發(fā)原創(chuàng)
          大家可以星標(biāo)一下我的公眾號(hào),之后內(nèi)容絕對(duì)干貨。
          廣告的話,長期關(guān)注的朋友可能也發(fā)現(xiàn)了,我基本沒廣告,尤其是最近,我基本全都拒絕了。所以大家可以放心打開;
          我還是想把這個(gè)公眾號(hào)作為和大家交流的一個(gè)平臺(tái)。
          有同學(xué)私下問題關(guān)鍵詞抽取的問題,之前有寫過類似的文章,搜了一下筆記,整理了一下,發(fā)上來,供大家參考:
          關(guān)鍵詞的提取,也可以稱之為文本標(biāo)簽提取。
          比如說,”今天這頓燒烤是真不錯(cuò)啊“,在這句話中,”燒烤“這個(gè)詞就可以被認(rèn)為是一個(gè)關(guān)鍵詞,或者說這個(gè)句子的一個(gè)標(biāo)簽。
          這個(gè)標(biāo)簽在一定程度上能夠表現(xiàn)出這個(gè)句子的含義,比如這個(gè)”燒烤“,如果用在文本分類任務(wù)中,可以隱含帶有”美食“這個(gè)類別的信息。
          這些標(biāo)簽有些時(shí)候也可以用在推薦系統(tǒng)的召回,比如直接按照”燒烤“這個(gè)標(biāo)簽做一路召回。
          對(duì)于關(guān)鍵詞的提取一般來說分為抽取式和生成式。其實(shí)類比到摘要,其實(shí)也是分為抽取式和生成式。
          生成式有一個(gè)缺點(diǎn)就是有些結(jié)果不可控,這其實(shí)還挺要命的。
          對(duì)于抽取式,就是從現(xiàn)有的數(shù)據(jù)中拿出來詞組。最差的結(jié)果也就是拿出的單詞并不重要,不是我們想要的。
          我們的重點(diǎn)是在抽取式提取關(guān)鍵詞。
          關(guān)鍵詞的提取可以分為兩個(gè)步驟:召回+排序
          1.召回
          召回就是得到文本中的候選關(guān)鍵詞,也就是得到這個(gè)句子中有可能是關(guān)鍵詞的詞匯。
          這一步,可以做的方法有很多,比如
          1. 我們有積累的關(guān)鍵詞詞庫,在這里直接匹配出來。
          2. 一些符合的詞性的候選詞,比如我挑選出名詞作為候選詞
          3. 還可以基于一些統(tǒng)計(jì)特征提出候選詞,比如TF-IDF(有些時(shí)候統(tǒng)計(jì)特征也會(huì)用在排序中作為特征)
          4. 基于一些規(guī)則,比如一個(gè)句子出現(xiàn)了人名地名,書名號(hào)中詞,這些很有可能就是關(guān)鍵詞
          召回其實(shí)是一個(gè)很重要的部分,在這一步驟,盡可能的召回有用的詞匯。我自己的標(biāo)準(zhǔn)是寧可多不能少。如果多了,無非就是增加了資源消耗,但是少了,可能在排序階段就是無米之炊了。
          2.排序
          排序階段,我們可以將方法大致的分為有監(jiān)督和無監(jiān)督的方法
          2.1無監(jiān)督抽取關(guān)鍵詞
          對(duì)于無監(jiān)督,我們分為基于統(tǒng)計(jì)和基于圖?;诮y(tǒng)計(jì)就是TF-IDF和各種變種?;趫D最常見的就是TextRank。
          關(guān)鍵詞提取的一個(gè)baseline就是 TF-IDF 提取,這種方法效果已經(jīng)很好。投入產(chǎn)出比很高,我們一般需要去掉常用的停用詞,保留重要的詞語。
          TF-IDF基于統(tǒng)計(jì),易于實(shí)現(xiàn),但是缺點(diǎn)就是沒有考慮詞與詞,詞與文檔之間的關(guān)系。是割裂的。
          另一個(gè)baseline就是基于圖的TextRank, TextRank 由 PageRank 演變而來。
          相比于TF-IDF,TextRank考慮了詞與詞之間的關(guān)系(提取思想就是從窗口之間的詞匯關(guān)系而來),但是缺點(diǎn)是它針對(duì)的是單個(gè)文本,而不是整個(gè)語料,在詞匯量比較少的文本中,也就是短文中,效果會(huì)比較差。
          隨著數(shù)據(jù)量的積累,我們需要把模型更換到有監(jiān)督模型加上。一般來說,有監(jiān)督分為兩種,一種是看做序列標(biāo)注,一種是看做二分類的問題。
          2.2有監(jiān)督之二分類
          先說二分類問題,比較簡單,就是找到詞匯的各種特征,去判斷這個(gè)詞匯是不是這個(gè)文本的關(guān)鍵詞。
          我大概羅列一些可能會(huì)用到的特征。
          1. 位置特征:
          使用位置特征是我們基于文本關(guān)鍵詞出現(xiàn)的位置是在大量數(shù)據(jù)的情況下是有規(guī)律可言的,比如微博文本中出現(xiàn)在##符號(hào)中部分詞匯有很大概率就是文本的一個(gè)關(guān)鍵詞。
          是否出現(xiàn)在開頭,是否出現(xiàn)在中間部分,是否出現(xiàn)在末尾,出現(xiàn)的位置(具體是第幾個(gè)單詞);相對(duì)于整個(gè)文本的位置;是否出現(xiàn)在##符號(hào)中...
          1. 統(tǒng)計(jì)特征:
          共現(xiàn)矩陣信息;詞頻;逆詞頻;詞性;詞跨度;關(guān)鍵詞所在句子的最大長度/最小長度/平均長度;
          1. 向量特征:
            關(guān)鍵詞詞向量和文檔向量的相似性

          2.3有監(jiān)督之序列標(biāo)注

          關(guān)鍵詞的提取,就是一個(gè)典型的序列標(biāo)注的問題。判斷句子中關(guān)鍵詞的開頭中間結(jié)尾的位置。
          序列標(biāo)注最基礎(chǔ)的就是HMM和CRF方法,但是特征工程比較復(fù)雜。
          為了解決特征工程復(fù)雜的問題,我們使用深度學(xué)習(xí)模型序列標(biāo)注。
          關(guān)于序列標(biāo)注,大家可以參考我這個(gè)文章內(nèi)容:
          工業(yè)級(jí)命名體識(shí)別經(jīng)驗(yàn)+代碼總結(jié)
          3.新詞發(fā)現(xiàn)
          還會(huì)出現(xiàn)一個(gè)問題,如果我們使用二分類判定關(guān)鍵詞,上述的過程我們都是基于我們的分詞器來做的。有可能會(huì)出現(xiàn)一些新詞,由于分詞錯(cuò)誤,不能及時(shí)的出現(xiàn)在你的候選詞庫中,比如”爺青結(jié)“。
          這個(gè)時(shí)候,我們需要一個(gè)新詞發(fā)現(xiàn)系統(tǒng),持續(xù)不斷的補(bǔ)充到詞庫中,在召回階段可以提升召回率。
          對(duì)于新詞發(fā)現(xiàn)來說,基操就是從文本的自由程度和凝固程度來判斷是否是新詞,這樣的問題就是閾值不好調(diào)整從而導(dǎo)致召回和精準(zhǔn)不好平衡。
          我們還可以通過別的方法離線挖掘?qū)嶓w詞補(bǔ)充道詞庫中,之前有借鑒美團(tuán)ner的文章實(shí)現(xiàn)了一下,效果還不錯(cuò),在這里,大家可以參考我這個(gè)文章:實(shí)體庫構(gòu)建:離線大規(guī)模新詞實(shí)體挖掘
          有興趣的去github看更多相關(guān)文文章:
          https://github.com/DA-southampton/NLP_ability
          瀏覽 61
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  高清无码在线视频观看 | 中文在线成人а√天堂官网 | 内射网站大全中文 | 日韩精品一线二线三线 | 精品久久一区二区三区四区五区 |