<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          手把手教你用Jieba做中文分詞

          共 2153字,需瀏覽 5分鐘

           ·

          2021-02-13 15:35


          導(dǎo)讀:近年來(lái),隨著NLP技術(shù)日益成熟,開(kāi)源實(shí)現(xiàn)的分詞工具越來(lái)越多,如Ansj、HanLP、盤古分詞等。本文我們選取了Jieba進(jìn)行介紹。


          作者:杜振東 涂銘?來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)


          01 Jieba的特點(diǎn)

          1. 社區(qū)活躍

          Jieba在GitHub上已經(jīng)有25.3k的star數(shù)目。社區(qū)活躍度高,代表著該項(xiàng)目會(huì)持續(xù)更新,能夠長(zhǎng)期使用,用戶在實(shí)際生產(chǎn)實(shí)踐中遇到的問(wèn)題也能夠在社區(qū)進(jìn)行反饋并得到解決。

          2. 功能豐富

          Jieba并不是只有分詞這一個(gè)功能,它是一個(gè)開(kāi)源框架,提供了很多在分詞之上的算法,如關(guān)鍵詞提取、詞性標(biāo)注等。

          3. 提供多種編程語(yǔ)言實(shí)現(xiàn)

          Jieba官方提供了Python、C++、Go、R、iOS等多平臺(tái)多語(yǔ)言支持,不僅如此,還提供了很多熱門社區(qū)項(xiàng)目的擴(kuò)展插件,如ElasticSearch、solr、lucene等。在實(shí)際項(xiàng)目中,使用Jieba進(jìn)行擴(kuò)展十分容易。

          4. 使用簡(jiǎn)單

          Jieba的API總體來(lái)說(shuō)并不多,且需要進(jìn)行的配置并不復(fù)雜,適合新手上手。下載完成后,可以使用如下命令進(jìn)行安裝。

          pip?install?jieba

          Jieba分詞結(jié)合了基于規(guī)則基于統(tǒng)計(jì)兩類方法。首先基于前綴詞典進(jìn)行詞圖掃描,前綴詞典是指詞典中的詞按照前綴包含的順序排列,如詞典中出現(xiàn)了“上”,之后以“上”開(kāi)頭的詞都會(huì)出現(xiàn)在一起,如詞典中出現(xiàn)“上?!币辉~,進(jìn)而會(huì)出現(xiàn)“上海市”等詞,從而形成一種層級(jí)包含結(jié)構(gòu)。

          如果將詞看作節(jié)點(diǎn),詞和詞之間的分詞符看作邊,那么一種分詞方案則對(duì)應(yīng)著從第一個(gè)字到最后一個(gè)字的一條分詞路徑。因此,基于前綴詞典可以快速構(gòu)建包含全部可能分詞結(jié)果的有向無(wú)環(huán)圖,這個(gè)圖包含多條分詞路徑,有向是指全部的路徑都始于第一個(gè)字、止于最后一個(gè)字,無(wú)環(huán)是指節(jié)點(diǎn)之間不構(gòu)成閉環(huán)。

          其次,基于標(biāo)注語(yǔ)料、使用動(dòng)態(tài)規(guī)劃的方法可以找出最大概率路徑,并將其作為最終的分詞結(jié)果。對(duì)于未登錄詞,Jieba使用了基于漢字成詞的HMM模型,采用了Viterbi算法進(jìn)行推導(dǎo)。


          02 Jieba的3種分詞模式

          Jieba提供了以下3種分詞模式。

          1. 精確模式:試圖將句子精確地切開(kāi),適合文本分析。
          2. 全模式:把句子中所有可以成詞的詞語(yǔ)都掃描出來(lái)。全模式處理速度非??欤遣荒芙鉀Q歧義。
          3. 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適用于搜索引擎分詞。

          下面是使用這3種模式的對(duì)比。

          import?jieba

          sent?=?'中文分詞是文本處理不可或缺的一步!'
          seg_list?=?jieba.cut(sent,?cut_all=True)

          print('全模式:',?'/?'?.join(seg_list))?

          seg_list?=?jieba.cut(sent,?cut_all=False)
          print('精確模式:',?'/?'.join(seg_list))?

          seg_list?=?jieba.cut(sent)??
          print('默認(rèn)精確模式:',?'/?'.join(seg_list))

          seg_list?=?jieba.cut_for_search(sent)??
          print('搜索引擎模式',?'/?'.join(seg_list))

          運(yùn)行結(jié)果如下所示。

          全模式:中文/?分詞/?是/?文本/?文本處理/?本處/?處理/?不可/?不可或缺/?或缺/?的/?一步/?/?
          精確模式:中文/?分詞/?是/?文本處理/?不可或缺/?的/?一步/?!
          默認(rèn)精確模式:中文/?分詞/?是/?文本處理/?不可或缺/?的/?一步/?!
          搜索引擎模式中文/?分詞/?是/?文本/?本處/?處理/?文本處理/?不可/?或缺/?不可或缺/?的/?一步/?!

          可以看到,在全模式和搜索引擎模式下,Jieba會(huì)把分詞的所有可能都打印出來(lái)。一般直接使用精確模式即可,但是在某些模糊匹配場(chǎng)景下,使用全模式或搜索引擎模式更適合。

          關(guān)于作者:杜振東,國(guó)家標(biāo)準(zhǔn)委人工智能技術(shù)專家和AIIA(中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟)技術(shù)專家。擁有8年機(jī)器學(xué)習(xí)與文本挖掘相關(guān)技術(shù)經(jīng)驗(yàn),6年中文自然語(yǔ)言處理相關(guān)項(xiàng)目實(shí)戰(zhàn)經(jīng)驗(yàn),擅長(zhǎng)PyTorch、TensorFlow等主流深度學(xué)習(xí)框架,擅長(zhǎng)運(yùn)用NLP前沿技術(shù)解決真實(shí)項(xiàng)目的難題。

          涂銘,數(shù)據(jù)架構(gòu)師和人工智能技術(shù)專家,曾就職于阿里,現(xiàn)就職于騰訊。對(duì)大數(shù)據(jù)、自然語(yǔ)言處理、圖像識(shí)別、Python、Java等相關(guān)技術(shù)有深入的研究,積累了豐富的實(shí)踐經(jīng)驗(yàn)。?


          本文摘編自會(huì)話式AI:自然語(yǔ)言處理與人機(jī)交互》,經(jīng)出版方授權(quán)發(fā)布。

          延伸閱讀會(huì)話式AI:自然語(yǔ)言處理與人機(jī)交互
          點(diǎn)擊上圖了解及購(gòu)買
          轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData

          推薦語(yǔ):騰訊、國(guó)家標(biāo)準(zhǔn)委AI專家撰寫,詳解NLP和人機(jī)交互,從算法、實(shí)戰(zhàn)3維度講解聊天機(jī)器人原理、實(shí)現(xiàn)與工程實(shí)踐。


          為您推薦

          101道Numpy、Pandas練習(xí)題

          干掉 LaTeX !用BookDown寫本書

          干掉 Navicat!一款數(shù)據(jù)分析師必備的數(shù)據(jù)庫(kù)可視化工具

          春節(jié)學(xué)習(xí)不打烊↓↓↓

          瀏覽 43
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大色网小色网 | 开心激情成人网址 | AV大奶网 | 国产免费靠逼视频免费观看 | 欧美一区二区三区系列电影 |