<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          jieba,宇宙最強(qiáng)Python分詞工具使用指南

          共 1253字,需瀏覽 3分鐘

           ·

          2019-12-24 23:28

          7083cba56d994b97690aa9d7be9efa47.webp

          ? ? ?作者:劉志軍


          ? ? ?來源:Python之禪

          結(jié)巴分詞是Python語言中最流行的一個(gè)分詞工具,在自然語言處理等場(chǎng)景被廣泛使用。


          因?yàn)镚itHub寫的文檔太啰嗦,所以整理了一個(gè)簡(jiǎn)版的入門使用指南,看完可直接上手

          安裝

          pip install jieba

          簡(jiǎn)單分詞

          import jieba

          result = jieba.cut("我愛中國(guó)北京大學(xué)")
          for word in result:
          print(word)

          輸出



          中國(guó)
          北京大學(xué)

          句子切分成了5個(gè)詞組。

          全模式分詞

          result = jieba.cut("我愛中國(guó)北京大學(xué)", cut_all=True)
          for word in result:
          print(word)

          輸出



          中國(guó)
          北京
          北京大學(xué)
          大學(xué)

          全模式分出來的詞覆蓋面更廣。

          提取關(guān)鍵詞

          從一個(gè)句子或者一個(gè)段落中提取前k個(gè)關(guān)鍵詞

          import jieba.analyse

          result = jieba.analyse.extract_tags("機(jī)器學(xué)習(xí),需要一定的數(shù)學(xué)基礎(chǔ),需要掌握的數(shù)學(xué)基礎(chǔ)知識(shí)特別多,"
          "如果從頭到尾開始學(xué),估計(jì)大部分人來不及,我建議先學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)知識(shí)",
          topK=5,
          withWeight=False)
          import pprint

          pprint.pprint(result)

          輸出

          ['數(shù)學(xué)', '學(xué)習(xí)', '數(shù)學(xué)知識(shí)', '基礎(chǔ)知識(shí)', '從頭到尾']
          • topK 為返回前topk個(gè)權(quán)重最大的關(guān)鍵詞

          • withWeight 返回每個(gè)關(guān)鍵字的權(quán)重值

          去掉停止詞

          停止詞是指在句子中無關(guān)緊要的詞語,例如標(biāo)點(diǎn)符號(hào)、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動(dòng)處理。提取關(guān)鍵字的方法?extract_tags?支持停止詞過濾

          # 先過濾停止詞
          jieba.analyse.set_stop_words(file_name)
          result = jieba.analyse.extract_tags(content, tokK)

          file_name 的文件格式是文本文件,每行一個(gè)詞語

          官方地址:https://github.com/fxsjy/jieba

          ◆?◆?◆ ?◆?



          長(zhǎng)按二維碼關(guān)注我們



          數(shù)據(jù)森麟公眾號(hào)的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進(jìn)群前一定要關(guān)注公眾號(hào)奧,關(guān)注后讓管理員幫忙拉進(jìn)群,期待大家的加入。


          管理員二維碼:


          猜你喜歡

          ?笑死人不償命的知乎沙雕問題排行榜

          ?我用Python紀(jì)念了那些被爛片收割的智商稅!

          ?互聯(lián)網(wǎng)大佬學(xué)歷&背景大揭秘,看看是你的老鄉(xiāng)還是校友

          ?上萬條數(shù)據(jù)撕開微博熱搜的真相!

          ?你相信逛B站也能學(xué)編程嗎??

          瀏覽 63
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产乱伦免费观看 | 色婷婷六月 | 欧美成人699www | 国产乱伦毛片张雪馨 | 日本三级站 |