手把手教你用Jieba做中文分詞

導(dǎo)讀:近年來,隨著NLP技術(shù)日益成熟,開源實現(xiàn)的分詞工具越來越多,如Ansj、HanLP、盤古分詞等。本文我們選取了Jieba進行介紹。

pip?install?jieba精確模式:試圖將句子精確地切開,適合文本分析。 全模式:把句子中所有可以成詞的詞語都掃描出來。全模式處理速度非常快,但是不能解決歧義。 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適用于搜索引擎分詞。
import?jieba
sent?=?'中文分詞是文本處理不可或缺的一步!'
seg_list?=?jieba.cut(sent,?cut_all=True)
print('全模式:',?'/?'?.join(seg_list))?
seg_list?=?jieba.cut(sent,?cut_all=False)
print('精確模式:',?'/?'.join(seg_list))?
seg_list?=?jieba.cut(sent)??
print('默認精確模式:',?'/?'.join(seg_list))
seg_list?=?jieba.cut_for_search(sent)??
print('搜索引擎模式',?'/?'.join(seg_list))
全模式:中文/?分詞/?是/?文本/?文本處理/?本處/?處理/?不可/?不可或缺/?或缺/?的/?一步/?/?
精確模式:中文/?分詞/?是/?文本處理/?不可或缺/?的/?一步/?!
默認精確模式:中文/?分詞/?是/?文本處理/?不可或缺/?的/?一步/?!
搜索引擎模式中文/?分詞/?是/?文本/?本處/?處理/?文本處理/?不可/?或缺/?不可或缺/?的/?一步/?!關(guān)于作者:杜振東,國家標準委人工智能技術(shù)專家和AIIA(中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟)技術(shù)專家。擁有8年機器學(xué)習(xí)與文本挖掘相關(guān)技術(shù)經(jīng)驗,6年中文自然語言處理相關(guān)項目實戰(zhàn)經(jīng)驗,擅長PyTorch、TensorFlow等主流深度學(xué)習(xí)框架,擅長運用NLP前沿技術(shù)解決真實項目的難題。
涂銘,數(shù)據(jù)架構(gòu)師和人工智能技術(shù)專家,曾就職于阿里,現(xiàn)就職于騰訊。對大數(shù)據(jù)、自然語言處理、圖像識別、Python、Java等相關(guān)技術(shù)有深入的研究,積累了豐富的實踐經(jīng)驗。?


干貨直達??

評論
圖片
表情
