黄片短视频在线观看,老鸭窝日本天堂中文字幕在线免费观看 ,三区四区欧美视频,中文字幕在线观看免费,一级片网址,国产精品av在线播放,艹骚逼视频,91亚洲精品久久久久久久久久久久

? ? ?作者：劉志軍

? ? ?來源：Python之禪

結(jié)巴分詞是Python語言中最流行的一個(gè)分詞工具，在自然語言處理等場(chǎng)景被廣泛使用。

因?yàn)镚itHub寫的文檔太啰嗦，所以整理了一個(gè)簡(jiǎn)版的入門使用指南，看完可直接上手

安裝

pip install jieba

簡(jiǎn)單分詞

import jieba

result = jieba.cut("我愛中國(guó)北京大學(xué)")
for word in result:
    print(word)

輸出

我
愛
中國(guó)
北京大學(xué)

句子切分成了5個(gè)詞組。

全模式分詞

result = jieba.cut("我愛中國(guó)北京大學(xué)", cut_all=True)
for word in result:
    print(word)

輸出

我
愛
中國(guó)
北京
北京大學(xué)
大學(xué)

全模式分出來的詞覆蓋面更廣。

提取關(guān)鍵詞

從一個(gè)句子或者一個(gè)段落中提取前k個(gè)關(guān)鍵詞

import jieba.analyse

result = jieba.analyse.extract_tags("機(jī)器學(xué)習(xí)，需要一定的數(shù)學(xué)基礎(chǔ)，需要掌握的數(shù)學(xué)基礎(chǔ)知識(shí)特別多，"
"如果從頭到尾開始學(xué)，估計(jì)大部分人來不及，我建議先學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)知識(shí)",
                                    topK=5,
                                    withWeight=False)
import pprint

pprint.pprint(result)

輸出

['數(shù)學(xué)', '學(xué)習(xí)', '數(shù)學(xué)知識(shí)', '基礎(chǔ)知識(shí)', '從頭到尾']

topK 為返回前topk個(gè)權(quán)重最大的關(guān)鍵詞
withWeight 返回每個(gè)關(guān)鍵字的權(quán)重值

去掉停止詞

停止詞是指在句子中無關(guān)緊要的詞語，例如標(biāo)點(diǎn)符號(hào)、指示代詞等等，做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞，需要手動(dòng)處理。提取關(guān)鍵字的方法?extract_tags?支持停止詞過濾

# 先過濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)

file_name 的文件格式是文本文件，每行一個(gè)詞語

官方地址：https://github.com/fxsjy/jieba

◆?◆?◆ ?◆?◆

長(zhǎng)按二維碼關(guān)注我們

數(shù)據(jù)森麟公眾號(hào)的交流群已經(jīng)建立，許多小伙伴已經(jīng)加入其中，感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容，還沒有加入的小伙伴可以掃描下方管理員二維碼，進(jìn)群前一定要關(guān)注公眾號(hào)奧，關(guān)注后讓管理員幫忙拉進(jìn)群，期待大家的加入。

管理員二維碼：

jieba,宇宙最強(qiáng)Python分詞工具使用指南

安裝

簡(jiǎn)單分詞

全模式分詞

提取關(guān)鍵詞

去掉停止詞