<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          TFIDF提取關鍵詞

          共 674字,需瀏覽 2分鐘

           ·

          2021-01-30 20:19

          TFIDF原理

          對于若干個文章的集合,我們要提取每篇文章具有代表性的關鍵詞,我們應該怎么做呢?

          最直觀也是最容易想到的方法,就是統(tǒng)計每個詞匯在文章中出現(xiàn)的頻率TF(term frequency),頻率高的就是具有代表性的詞匯。但是這樣的話,可以想象頻率最高的詞匯一定是“的”“是”“你我他”這樣的stop words,所以,我們首先要排除這些詞匯。TF的計算方法如下:

          ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

          另外一點,舉個例子,我們有三類文章A,B,C,首先這3篇文章都有一個高頻率詞匯“中國”(而且是頻率最高的詞匯),其次,A文章第二高頻詞匯為“體育”,B“藝術”,C“音樂”;請問,你覺得“中國”可以作為最具有代表性的詞匯嗎?明顯不可以吧。所以,除了考慮詞匯的頻率之外,還需考慮詞匯在其他文檔當中出現(xiàn)的概率,詞匯的重要性應該和該概率是反相關的,我們用一下公式來衡量:

          ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

          所以,為了衡量一個詞匯的重要性,我們使用TF-IDF來計算:

          ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??


          瀏覽 42
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国内精品久久久久久久久 | 91天天干天天日 | 99久久这里只有精品 | 欧美性少妇 | 国产午夜无码视频在线观看 |