黄网站18禁,国产精品黄色A片,国产成人大香蕉,天天澡天天爽爽,韩一区二区三区,亚洲短视频,免费18禁,中文字幕亚洲视频在线观看

點擊上方“?python入門與進階”，關(guān)注并“星標

”

每日接收Python干貨！來源：Python之禪

結(jié)巴分詞是Python語言中最流行的一個分詞工具，在自然語言處理等場景被廣泛使用。

因為GitHub寫的文檔太啰嗦，所以整理了一個簡版的入門使用指南，看完可直接上手

安裝

pip install jieba

簡單分詞

import jieba

result = jieba.cut("我愛中國北京大學")
for word in result:
    print(word)

輸出

我
愛
中國
北京大學

句子切分成了5個詞組。

全模式分詞

result = jieba.cut("我愛中國北京大學", cut_all=True)
for word in result:
    print(word)

輸出

我
愛
中國
北京
北京大學
大學

全模式分出來的詞覆蓋面更廣。

提取關(guān)鍵詞

從一個句子或者一個段落中提取前k個關(guān)鍵詞

import jieba.analyse

result = jieba.analyse.extract_tags("機器學習，需要一定的數(shù)學基礎(chǔ)，需要掌握的數(shù)學基礎(chǔ)知識特別多，"
                                    "如果從頭到尾開始學，估計大部分人來不及，我建議先學習最基礎(chǔ)的數(shù)學知識",
                                    topK=5,
                                    withWeight=False)
import pprint

pprint.pprint(result)

輸出

['數(shù)學', '學習', '數(shù)學知識', '基礎(chǔ)知識', '從頭到尾']

topK 為返回前topk個權(quán)重最大的關(guān)鍵詞
withWeight 返回每個關(guān)鍵字的權(quán)重值

去掉停止詞

停止詞是指在句子中無關(guān)緊要的詞語，例如標點符號、指示代詞等等，做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞，需要手動處理。提取關(guān)鍵字的方法?extract_tags?支持停止詞過濾

# 先過濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)

file_name 的文件格式是文本文件，每行一個詞語

官方地址：https://github.com/fxsjy/jieba

- end -
回復(fù)關(guān)鍵字“ 簡明python ”，立即獲取入門必備書籍《簡明python教程》電子版
回復(fù)關(guān)鍵字 “ 爬蟲 ”，立即獲取爬蟲學習資料
python入門與進階
每天與你一起成長

推薦閱讀
Python 開發(fā)一個間諜小程序
請盡快升級！Chrome瀏覽器又發(fā)現(xiàn)了可遠程攻擊的高危漏洞
30個Python代碼實現(xiàn)的常用功能，精心整理版
判了！國內(nèi)「最牛減少庫跑路事件」程序員被判6年，公司損失近億
Windows上必裝的10款高效軟件，用起來絕對爽！
點「在看」的人都變好看了哦！

jieba，宇宙最強Python分詞工具使用指南

安裝

簡單分詞

全模式分詞

提取關(guān)鍵詞

去掉停止詞

Python 開發(fā)一個間諜小程序

請盡快升級！Chrome瀏覽器又發(fā)現(xiàn)了可遠程攻擊的高危漏洞

30個Python代碼實現(xiàn)的常用功能，精心整理版

判了！國內(nèi)「最牛減少庫跑路事件」程序員被判6年，公司損失近億

Windows上必裝的10款高效軟件，用起來絕對爽！