<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          TextRank提取關(guān)鍵詞

          共 1178字,需瀏覽 3分鐘

           ·

          2021-02-02 07:22

          TextRank的靈感來源于PageRank算法,這是一個用作網(wǎng)頁重要度排序的算法。

          并且,這個算法也是基于圖的,每個網(wǎng)頁可以看作是一個圖中的結(jié)點(diǎn),如果網(wǎng)頁A能夠跳轉(zhuǎn)到網(wǎng)頁B,那么則有一條A->B的有向邊。這樣,我們就可以構(gòu)造出一個有向圖了。

          然后,利用公式:


          經(jīng)過多次迭代就可以獲得每個網(wǎng)頁對應(yīng)的權(quán)重。下面解釋公式每個元素的含義:


          ?能夠跳轉(zhuǎn)到的頁面,在圖中對應(yīng)出度的點(diǎn)。

          可以發(fā)現(xiàn),這個方法只要構(gòu)造好圖,對應(yīng)關(guān)系自然就有了,這實(shí)際上是一個比較通用的算法。那么對于文本來說,也是同樣的,只要我們能夠構(gòu)造出一個圖,圖中的結(jié)點(diǎn)是單詞or句子,只要我們通過某種方法定義這些結(jié)點(diǎn)存在某種關(guān)系,那么我們就可以使用上面的算法,得到一篇文章中的關(guān)鍵詞or摘要。

          使用TextRank提取關(guān)鍵詞
          提取關(guān)鍵詞,和網(wǎng)頁中選哪個網(wǎng)頁比較重要其實(shí)是異曲同工的,so,我們只需要想辦法把圖構(gòu)建出來就好了。

          圖的結(jié)點(diǎn)其實(shí)比較好定義,就是單詞嘍,把文章拆成句子,每個句子再拆成單詞,以單詞為結(jié)點(diǎn)。

          那么邊如何定義呢?這里就可以利用n-gram的思路,簡單來說,某個單詞,只與它附近的n個單詞有關(guān),即與它附近的n個詞對應(yīng)的結(jié)點(diǎn)連一條無向邊(兩個有向邊)。

          另外,還可以做一些操作,比如把某類詞性的詞刪掉,一些自定義詞刪掉,只保留一部分單詞,只有這些詞之間能夠連邊。

          下面是論文中給出的例子:


          當(dāng)構(gòu)圖成功以后,就可以利用上面的公式進(jìn)行迭代求解了。

          使用TextRank提取文章摘要

          提取關(guān)鍵詞以單詞為結(jié)點(diǎn),很顯然,提取文章摘要自然就是以句子為結(jié)點(diǎn)了。那么邊呢?如何定義呢?上面的方法似乎不是很適用了,因?yàn)閮蓚€句子即使相鄰,也可以去講完全不同的兩件事。

          在論文里,作者給出了一個方法,那就是計(jì)算兩個句子的相似度。我的理解是這樣的,這個計(jì)算相似度,其實(shí)就是一個比較粗略的方法來判斷這兩個句子是不是在講同一個事情,如果兩個句子是講同一個事情,那么肯定會使用相似的單詞之類的,這樣就可以連一個邊了。

          既然有了相似度,那么就會有兩個句子很相似,兩個句子不太相似的情況了,因此,連的邊也需要是帶權(quán)值的邊了。

          下面是論文中給出的相似度的公式:

          簡單來說就是,兩個句子單詞的交集除以兩個句子的長度(至于為什么用log,沒想明白,論文里也沒提)。然后還有一點(diǎn),就是,其他計(jì)算相似度的方法應(yīng)該也是可行的,比如余弦相似度,最長公共子序列之類的,不過論文里一筆帶過了。

          由于使用了帶權(quán)的邊,因此公式也要進(jìn)行相應(yīng)的修改:


          上面的公式基本上就是把原來對應(yīng)邊的部分添加了權(quán)重,邊的數(shù)量和改成了權(quán)重和,很好理解。


          瀏覽 44
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产一区二区三区四区五区在线 | 草逼草综合 | 国产精品久久久久久苍井空 | 夜夜嗨AV一区二区三区Y.S下载 | 91亚洲欧美福利在线观看 |