<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          YahaPython 中文分詞庫

          聯(lián)合創(chuàng)作 · 2023-09-29 05:24

          "啞哈"中文分詞,更快或更準(zhǔn)確,由你來定義。通過簡單定制,讓分詞模塊更適用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

          基本功能:

          • 精確模式,將句子切成最合理的詞。
          • 全模式,所有的可能詞都被切成詞,不消除歧義。
          • 搜索引擎模式,在精確的基礎(chǔ)上再次驛長詞進行切分,提高召回率,適合搜索引擎創(chuàng)建索引。
          • 備選路徑,可生成最好的多條切詞路徑,可在此基礎(chǔ)上根據(jù)其它信息得到更精確的分詞模式。

          可用插件:

          • 正則表達式插件
          • 人名前綴插件
          • 地名后綴插件
          • 定制功能。分詞過程產(chǎn)生4種階段,每個階段都可以加入個人的定制。

          附加功能:

          • 新詞學(xué)習(xí)功能。通過輸入大段文字,學(xué)習(xí)到此內(nèi)容產(chǎn)生的新老詞語。
          • 獲取大段文本的關(guān)鍵字。
          • 獲取大段文本的摘要。
          • 支持用戶自定義詞典

          Algorithm

          • 核心是基于查找句子的最大概率路徑來進行分詞。
          • 保證效率的基礎(chǔ)上,對分詞的各個階段進行定義,方便用戶添加屬于自己的分詞方法(默認有正則,前綴名字與后綴地名)。
          • 用戶可自定義使用動態(tài)規(guī)劃或Dijdstra算法得到最優(yōu)的一條或多條路徑,再次可根據(jù)詞性(中科大ictclas的作法)等其它信息得獲得最優(yōu)路徑。
          • 使用“最大熵”算法來實現(xiàn)對大文本的新詞發(fā)現(xiàn)能力,很適合使用它來創(chuàng)建自定義詞典,或在SNS等場合進行數(shù)據(jù)挖掘的工作。
          • 相比已存在的結(jié)巴分詞,去掉了很消耗內(nèi)存的Trie樹結(jié)構(gòu),以及新詞發(fā)現(xiàn)能力并不強的HMM模型(未來此模型可能當(dāng)成一個備選插件加入到此模塊)。

          目前狀態(tài)

          以上提到的核心部分以及基礎(chǔ)功能都已得到實現(xiàn)。不過一些細節(jié)正在實現(xiàn)當(dāng)中,目前還未發(fā)布版本。 一些片段的代碼可以從我的代碼分享得到:http://www.oschina.net/code/list_by_user?id=1180874

          瀏覽 19
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日韩v | 亚区一区无码 | 欧美性猛交XXXX乱大交 | 人妻精品免费 | 亚洲精品久久久日产欧美蜜桃 |