<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          NLP中關(guān)鍵字提取方法總結(jié)和概述

          共 4522字,需瀏覽 10分鐘

           ·

          2021-10-01 04:27

          來(lái)源:DeepHub IMBA

          本文約3500字,建議閱讀5分鐘 

          在本文中介紹了幾種從統(tǒng)計(jì)、基于圖和嵌入方法中提取關(guān)鍵字的方法。


          關(guān)鍵詞提取方法可以在文檔中找到相關(guān)的關(guān)鍵詞。在本文中,我總結(jié)了最常用的關(guān)鍵字提取方法。


          什么是關(guān)鍵詞提?。?/span>


          關(guān)鍵字提取是從文本文檔中檢索關(guān)鍵字或關(guān)鍵短語(yǔ)。這些關(guān)鍵詞從文本文檔的短語(yǔ)中選擇出來(lái)的并且表征了文檔的主題。在本文中,我總結(jié)了最常用的自動(dòng)提取關(guān)鍵字的方法。

          自動(dòng)從文檔中提取關(guān)鍵字的方法是從文本文檔中選擇最常用和最重要的單詞或短語(yǔ)的啟發(fā)式方法。我將關(guān)鍵字提取方法歸入自然語(yǔ)言處理領(lǐng)域,這是機(jī)器學(xué)習(xí)和人工智能中的一個(gè)重要領(lǐng)域。

          關(guān)鍵字提取器用于提取單詞(關(guān)鍵字)或創(chuàng)建短語(yǔ)(關(guān)鍵短語(yǔ))的兩個(gè)或多個(gè)單詞的組。在本文中,我使用術(shù)語(yǔ)關(guān)鍵字提取,其中包括關(guān)鍵字或關(guān)鍵短語(yǔ)提取。

          為什么我們需要關(guān)鍵字提取的方法呢?


          節(jié)省時(shí)間——根據(jù)關(guān)鍵詞,可以決定文本的主題(例如文章)是否對(duì)他感興趣以及是否閱讀。關(guān)鍵字向用戶提供了該篇文章或文檔主要內(nèi)容摘要。

          查找相關(guān)文檔——大量文章的出現(xiàn)使得我們不可能全部進(jìn)行閱讀。關(guān)鍵詞提取算法可以幫助我們找到相關(guān)文章。關(guān)鍵字提取算法還可以自動(dòng)構(gòu)建書(shū)籍、出版物或索引。

          關(guān)鍵字提取作為機(jī)器學(xué)習(xí)的支持——關(guān)鍵字提取算法找到描述文本的最相關(guān)的詞。它們以后可以用于可視化或自動(dòng)分類(lèi)文本。

          關(guān)鍵詞提取方法


          在本文中,我將概述一些最常用的關(guān)鍵字提取方法。我會(huì)考慮無(wú)監(jiān)督(不需要訓(xùn)練)和領(lǐng)域獨(dú)立的方法。我將方法分為三組:統(tǒng)計(jì)方法、基于圖的方法和基于向量嵌入的方法。

          基于統(tǒng)計(jì)的方法


          統(tǒng)計(jì)方法是最簡(jiǎn)單的。他們計(jì)算關(guān)鍵字的統(tǒng)計(jì)數(shù)據(jù)并使用這些統(tǒng)計(jì)數(shù)據(jù)對(duì)它們進(jìn)行評(píng)分。一些最簡(jiǎn)單的統(tǒng)計(jì)方法是詞頻、詞搭配和共現(xiàn)。也有一些更復(fù)雜的,例如 TF-IDF 和 YAKE!。

          TF-IDF 或term frequency–inverse document frequency,會(huì)計(jì)算文檔中單詞相對(duì)于整個(gè)語(yǔ)料庫(kù)(更多文檔集)的重要性。它計(jì)算文檔中每個(gè)詞的頻率,并通過(guò)詞在整個(gè)語(yǔ)料庫(kù)中的頻率的倒數(shù)對(duì)其進(jìn)行加權(quán)。最后,選擇得分最高的詞作為關(guān)鍵詞。

          TF-IDF 的公式如下:


          其中 t 是觀察項(xiàng)。該等式應(yīng)用于文檔中的每個(gè)術(shù)語(yǔ)(單詞或短語(yǔ))。方程的藍(lán)色部分是詞頻(TF),橙色部分是逆文檔頻率(IDF)。

          TF-IDF 的想法是文檔中出現(xiàn)頻率更高的詞不一定是最相關(guān)的。該算法偏愛(ài)在文本文檔中頻繁出現(xiàn)而在其他文檔中不常見(jiàn)的術(shù)語(yǔ)。

          TF-IDF 的優(yōu)點(diǎn)是速度快,缺點(diǎn)是需要至少幾十個(gè)文檔的語(yǔ)料庫(kù),并且 TF-IDF 與語(yǔ)言無(wú)關(guān)。

          YAKE (Yet Another Keyword Extractor) 是一種關(guān)鍵字提取方法,它利用單個(gè)文檔的統(tǒng)計(jì)特征來(lái)提取關(guān)鍵字。它通過(guò)五個(gè)步驟提取關(guān)鍵字:


          1、預(yù)處理和候選詞識(shí)別——文本被分成句子、塊(句子的一部分用標(biāo)點(diǎn)符號(hào)分隔)和標(biāo)記。文本被清理、標(biāo)記和停用詞也會(huì)被識(shí)別。

          2、特征提取——算法計(jì)算文檔中術(shù)語(yǔ)(單詞)的以下五個(gè)統(tǒng)計(jì)特征:

          a) 大小寫(xiě)——計(jì)算該術(shù)語(yǔ)在文本中出現(xiàn)大寫(xiě)或作為首字母縮略詞的次數(shù)(與所有出現(xiàn)成比例)。重要的術(shù)語(yǔ)通常更頻繁地出現(xiàn)大寫(xiě)。
          b) 詞條位置——詞條在文本中的中間位置。更接近開(kāi)頭的術(shù)語(yǔ)過(guò)去更重要。
          c) 詞頻歸一化——測(cè)量文檔中的平衡詞頻。
          d) 術(shù)語(yǔ)與上下文的相關(guān)性——衡量候選術(shù)語(yǔ)同時(shí)出現(xiàn)的不同術(shù)語(yǔ)的數(shù)量。更重要的術(shù)語(yǔ)與較少不同的術(shù)語(yǔ)同時(shí)出現(xiàn)。
          e) 術(shù)語(yǔ)不同的句子——測(cè)量術(shù)語(yǔ)在不同句子中出現(xiàn)的次數(shù)。得分越高表示術(shù)語(yǔ)越重要。

          3、計(jì)算術(shù)語(yǔ)分?jǐn)?shù)——上一步的特征與人造方程組合成一個(gè)單一的分?jǐn)?shù)。

          4、生成 n-gram 并計(jì)算關(guān)鍵字分?jǐn)?shù)——該算法識(shí)別所有有效的 n-gram。n-gram 中的單詞必須屬于同一塊,并且不能以停用詞開(kāi)頭或結(jié)尾。然后通過(guò)將每個(gè) n-gram 的成員分?jǐn)?shù)相乘并對(duì)其進(jìn)行歸一化,以減少 n-gram 長(zhǎng)度的影響。停用詞的處理方式有所不同,以盡量減少其影響。

          5、重復(fù)數(shù)據(jù)刪除和排名——在最后一步算法刪除相似的關(guān)鍵字。它保留了更相關(guān)的那個(gè)(分?jǐn)?shù)較低的那個(gè))。使用 Levenshtein 相似度、Jaro-Winkler 相似度或序列匹配器計(jì)算相似度。最后,關(guān)鍵字列表根據(jù)它們的分?jǐn)?shù)進(jìn)行排序。

          YAKE 的優(yōu)勢(shì)在于它不依賴(lài)于外部語(yǔ)料庫(kù)、文本文檔的長(zhǎng)度、語(yǔ)言或領(lǐng)域。與 TF-IDF 相比,它在單個(gè)文檔的基礎(chǔ)上提取關(guān)鍵字,并且不需要龐大的語(yǔ)料庫(kù)。

          基于圖的方法


          基于圖的方法是從文檔中生成相關(guān)術(shù)語(yǔ)的圖。例如,圖將文本中共同出現(xiàn)的術(shù)語(yǔ)連接起來(lái)?;趫D的方法使用圖排序方法,該方法考慮圖的結(jié)構(gòu)來(lái)對(duì)頂點(diǎn)重要性進(jìn)行評(píng)分。最著名的基于圖的方法之一是 TextRank。

          TextRank 是一種基于圖的排序方法,用于提取相關(guān)句子或查找關(guān)鍵字。我將重點(diǎn)介紹它在關(guān)鍵字提取中的用法。該方法通過(guò)以下步驟提取關(guān)鍵字:

          1、帶有詞性 (PoS) 標(biāo)簽的文本標(biāo)記化和注釋。

          2、詞共現(xiàn)圖構(gòu)建——圖中的頂點(diǎn)是帶有選定 PoS 標(biāo)簽的詞(作者僅選擇名詞和形容詞即可獲得最佳結(jié)果)。如果兩個(gè)頂點(diǎn)出現(xiàn)在文本中的 N 個(gè)單詞的窗口內(nèi),則它們與一條邊相連(根據(jù)作者的實(shí)驗(yàn),最佳表現(xiàn) N 為 2)。該圖是無(wú)向和未加權(quán)的。

          3、圖排序——每個(gè)頂點(diǎn)的分?jǐn)?shù)設(shè)置為1,在圖上運(yùn)行排序算法。作者使用 Google 的 PageRank 算法,該算法主要用于對(duì)網(wǎng)站圖表進(jìn)行排名。該算法使用上圖中的公式。頂點(diǎn) Vi 的權(quán)重 S(Vi) 是通過(guò)考慮連接到節(jié)點(diǎn) Vi 的頂點(diǎn)的權(quán)重來(lái)計(jì)算的。在等式中,d 是設(shè)置為 0.85 的阻尼因子,如 PageRank 文章中所述。In(Vi) 是到頂點(diǎn) Vi 的入站鏈接,而 Out(Vj) 是來(lái)自頂點(diǎn) Vj 的出站鏈接。由于我們考慮的是無(wú)向圖,因此頂點(diǎn)的入站鏈接和頂點(diǎn)的出站鏈接是相同的。該算法在每個(gè)節(jié)點(diǎn)上運(yùn)行多次迭代,直到節(jié)點(diǎn)上的權(quán)重收斂——迭代之間的變化低于 0.0001。

          4、得分最高的單詞選擇——單詞(頂點(diǎn))從得分最高的單詞到最低得分的單詞排序。最后,算法選擇單詞的前 1/3。

          5、關(guān)鍵詞提取——在這一步中,如果上一階段選擇的單詞一起出現(xiàn)在文本中,則將它們連接為多詞關(guān)鍵詞。新構(gòu)建的關(guān)鍵字的分?jǐn)?shù)是單詞分?jǐn)?shù)的總和。

          該算法對(duì)每個(gè)文檔單獨(dú)執(zhí)行,不需要一個(gè)文檔語(yǔ)料庫(kù)來(lái)進(jìn)行關(guān)鍵字提取。TextRank也是語(yǔ)言無(wú)關(guān)的。

          RAKE (Rapid Automatic Keyword Extraction)是另一種基于圖的關(guān)鍵字提取算法。該算法是基于這樣的觀察:關(guān)鍵字通常由多個(gè)單詞組成,通常不包括停頓詞或標(biāo)點(diǎn)符號(hào)。
          它包括以下步驟:


          1、候選關(guān)鍵詞提取——基于停用詞和短語(yǔ)分隔符對(duì)候選關(guān)鍵詞進(jìn)行文本分割。候選關(guān)鍵字是位于兩個(gè)停用詞或短語(yǔ)定界符之間的短語(yǔ)。例如,短語(yǔ)分隔符是標(biāo)點(diǎn)符號(hào)。

          2、關(guān)鍵詞共現(xiàn)圖構(gòu)建——圖中的頂點(diǎn)是單詞。如果它們一起出現(xiàn)在候選關(guān)鍵字中,則它們是連接的。該圖是加權(quán)的——權(quán)重是連接詞在候選關(guān)鍵字中一起出現(xiàn)的次數(shù)。該圖還包括與頂點(diǎn)本身的連接(每個(gè)單詞與自身一起出現(xiàn)在候選關(guān)鍵字中)。

          3、詞評(píng)分——圖中的每個(gè)詞都用以下評(píng)分之一評(píng)分:

          a) 詞度 deg(w)——詞 w 共同出現(xiàn)的詞數(shù)(邊權(quán)重總和,包括指向頂點(diǎn)本身的邊)。度數(shù)偏愛(ài)出現(xiàn)頻率更高、關(guān)鍵字更長(zhǎng)的詞。
          b) 詞頻 freq(w) — 該詞出現(xiàn)在任何候選關(guān)鍵字中的次數(shù)。頻率偏愛(ài)出現(xiàn)頻率更高的詞。
          c) 度數(shù)與頻率之比 deg(w)/freq(w)——這個(gè)指標(biāo)偏向于主要出現(xiàn)在較長(zhǎng)候選關(guān)鍵詞中的詞。建議使用詞度或度數(shù)與頻率之比。從這兩個(gè)角度來(lái)看,排名將有利于較短的關(guān)鍵字。

          4、候選關(guān)鍵詞得分——每個(gè)候選關(guān)鍵詞的得分為其成員詞得分之和。

          5、相鄰關(guān)鍵詞——候選關(guān)鍵詞不包括停用詞。由于有時(shí)停用詞可能是關(guān)鍵字的一部分,因此在此步驟中添加了它們。該算法在文本中找到與停用詞連接的關(guān)鍵字對(duì),并將它們添加到現(xiàn)有停用詞集中。它們必須在要添加的文本中至少出現(xiàn)兩次。新關(guān)鍵字的得分是其成員關(guān)鍵字的總和。

          6、關(guān)鍵詞提取——結(jié)果,1/3 得分最高的關(guān)鍵詞被提取出來(lái)。

          RAKE 和 TextRank 的主要區(qū)別在于 RAKE 考慮候選關(guān)鍵字內(nèi)的共現(xiàn)而不是固定窗口。它使用更簡(jiǎn)單、更具統(tǒng)計(jì)性的評(píng)分程序。該算法對(duì)每個(gè)文檔分別進(jìn)行,因此不需要文檔語(yǔ)料庫(kù)來(lái)進(jìn)行關(guān)鍵詞提取。

          基于深度學(xué)習(xí)


          深度學(xué)習(xí)的出現(xiàn)使基于嵌入的方法成為可能。研究人員開(kāi)發(fā)了幾種使用文檔嵌入的關(guān)鍵字提取方法(例如 Bennani 等人)。

          這些方法主要查找候選關(guān)鍵字列表(例如,Bennani 等人只考慮由名詞和形容詞組成的關(guān)鍵字)。他們將文檔和候選關(guān)鍵字嵌入到相同的嵌入空間中,并測(cè)量文檔和關(guān)鍵字嵌入之間的相似度(例如余弦相似度)。他們根據(jù)相似度度量選擇與文檔文本最相似的關(guān)鍵字。

          總結(jié)


          在本文中介紹了幾種從統(tǒng)計(jì)、基于圖和嵌入方法中提取關(guān)鍵字的方法。由于該領(lǐng)域非?;钴S,我只介紹最常見(jiàn)的方法。我只考慮無(wú)監(jiān)督方法的一個(gè)子組(它們不需要訓(xùn)練)。也有在帶注釋文檔的訓(xùn)練數(shù)據(jù)集上訓(xùn)練的監(jiān)督方法。它們表現(xiàn)良好,但在實(shí)踐中較少使用,因?yàn)樗鼈冃枰?xùn)練并且需要帶注釋的文檔數(shù)據(jù)集,結(jié)果也通常僅適用于訓(xùn)練數(shù)據(jù)集中的主題。

          引用


          [1]Bennani-Smires, Kamil, et al. Simple unsupervised keyphrase extraction using sentence embeddings. arXiv preprint arXiv:1801.04470, 2018.

          [1] Campos, Ricardo, et al. YAKE! Keyword extraction from single documents using multiple local features. Information Sciences, 2020, 509: 257–289.

          [3] Jones, Karen Sparck. A statistical interpretation of term specificity and its application in retrieval. Journal of documentation, 1972.

          [4] Mihalcea, Rada; Tarau, Paul. TextRank: Bringing order into texts. 2004. In: Association for Computational Linguistics.

          [5] Rose, Stuart, et al. Automatic keyword extraction from individual documents. Text mining: applications and theory, 2010, 1: 1–20.


          編輯:王菁

          校對(duì):汪雨晴


          瀏覽 51
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美亚洲国产a | 婷婷色五月天丁香色 | 国产无遮挡又黄又爽又色 | 国产一区二区三区免费播放 | 香蕉视频日本免费色老板 |