手把手教你用Jieba做中文分詞

導(dǎo)讀:近年來(lái),隨著NLP技術(shù)日益成熟,開(kāi)源實(shí)現(xiàn)的分詞工具越來(lái)越多,如Ansj、HanLP、盤古分詞等。本文我們選取了Jieba進(jìn)行介紹。

pip?install?jieba精確模式:試圖將句子精確地切開(kāi),適合文本分析。 全模式:把句子中所有可以成詞的詞語(yǔ)都掃描出來(lái)。全模式處理速度非??欤遣荒芙鉀Q歧義。 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適用于搜索引擎分詞。
import?jieba
sent?=?'中文分詞是文本處理不可或缺的一步!'
seg_list?=?jieba.cut(sent,?cut_all=True)
print('全模式:',?'/?'?.join(seg_list))?
seg_list?=?jieba.cut(sent,?cut_all=False)
print('精確模式:',?'/?'.join(seg_list))?
seg_list?=?jieba.cut(sent)??
print('默認(rèn)精確模式:',?'/?'.join(seg_list))
seg_list?=?jieba.cut_for_search(sent)??
print('搜索引擎模式',?'/?'.join(seg_list))
全模式:中文/?分詞/?是/?文本/?文本處理/?本處/?處理/?不可/?不可或缺/?或缺/?的/?一步/?/?
精確模式:中文/?分詞/?是/?文本處理/?不可或缺/?的/?一步/?!
默認(rèn)精確模式:中文/?分詞/?是/?文本處理/?不可或缺/?的/?一步/?!
搜索引擎模式中文/?分詞/?是/?文本/?本處/?處理/?文本處理/?不可/?或缺/?不可或缺/?的/?一步/?!關(guān)于作者:杜振東,國(guó)家標(biāo)準(zhǔn)委人工智能技術(shù)專家和AIIA(中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟)技術(shù)專家。擁有8年機(jī)器學(xué)習(xí)與文本挖掘相關(guān)技術(shù)經(jīng)驗(yàn),6年中文自然語(yǔ)言處理相關(guān)項(xiàng)目實(shí)戰(zhàn)經(jīng)驗(yàn),擅長(zhǎng)PyTorch、TensorFlow等主流深度學(xué)習(xí)框架,擅長(zhǎng)運(yùn)用NLP前沿技術(shù)解決真實(shí)項(xiàng)目的難題。
涂銘,數(shù)據(jù)架構(gòu)師和人工智能技術(shù)專家,曾就職于阿里,現(xiàn)就職于騰訊。對(duì)大數(shù)據(jù)、自然語(yǔ)言處理、圖像識(shí)別、Python、Java等相關(guān)技術(shù)有深入的研究,積累了豐富的實(shí)踐經(jīng)驗(yàn)。?


為您推薦
干掉 Navicat!一款數(shù)據(jù)分析師必備的數(shù)據(jù)庫(kù)可視化工具
春節(jié)學(xué)習(xí)不打烊↓↓↓
評(píng)論
圖片
表情
