<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          jieba,宇宙最強Python分詞工具使用指南

          共 1381字,需瀏覽 3分鐘

           ·

          2020-09-30 15:34

          點擊上方“?python入門與進階”,關(guān)注并“星標

          每日接收Python干貨!來源:Python之禪

          結(jié)巴分詞是Python語言中最流行的一個分詞工具,在自然語言處理等場景被廣泛使用。


          因為GitHub寫的文檔太啰嗦,所以整理了一個簡版的入門使用指南,看完可直接上手

          安裝

          pip install jieba

          簡單分詞

          import jieba

          result = jieba.cut("我愛中國北京大學")
          for word in result:
          print(word)

          輸出



          中國
          北京大學

          句子切分成了5個詞組。

          全模式分詞

          result = jieba.cut("我愛中國北京大學", cut_all=True)
          for word in result:
          print(word)

          輸出



          中國
          北京
          北京大學
          大學

          全模式分出來的詞覆蓋面更廣。

          提取關(guān)鍵詞

          從一個句子或者一個段落中提取前k個關(guān)鍵詞

          import jieba.analyse

          result = jieba.analyse.extract_tags("機器學習,需要一定的數(shù)學基礎(chǔ),需要掌握的數(shù)學基礎(chǔ)知識特別多,"
          "如果從頭到尾開始學,估計大部分人來不及,我建議先學習最基礎(chǔ)的數(shù)學知識",
          topK=5,
          withWeight=False)
          import pprint

          pprint.pprint(result)

          輸出

          ['數(shù)學', '學習', '數(shù)學知識', '基礎(chǔ)知識', '從頭到尾']
          • topK 為返回前topk個權(quán)重最大的關(guān)鍵詞

          • withWeight 返回每個關(guān)鍵字的權(quán)重值

          去掉停止詞

          停止詞是指在句子中無關(guān)緊要的詞語,例如標點符號、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動處理。提取關(guān)鍵字的方法?extract_tags?支持停止詞過濾

          # 先過濾停止詞
          jieba.analyse.set_stop_words(file_name)
          result = jieba.analyse.extract_tags(content, tokK)

          file_name 的文件格式是文本文件,每行一個詞語

          官方地址:https://github.com/fxsjy/jieba

          - end -

          回復(fù)關(guān)鍵字“ 簡明python ”,立即獲取入門必備書籍簡明python教程》電子版

          回復(fù)關(guān)鍵字爬蟲 ”,立即獲取爬蟲學習資料

          python入門與進階
          每天與你一起成長

          推薦閱讀

          點「在看」的人都變好看了哦!
          瀏覽 48
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产亚洲精久久久久久无码苍井空 | 男女啪啪91 | 天天撸天天草天天日 | 红桃视频一区二区三区四区 | 去干网欧美 |