YahaPython 中文分詞庫
"啞哈"中文分詞,更快或更準(zhǔn)確,由你來定義。通過簡單定制,讓分詞模塊更適用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha
基本功能:
- 精確模式,將句子切成最合理的詞。
- 全模式,所有的可能詞都被切成詞,不消除歧義。
- 搜索引擎模式,在精確的基礎(chǔ)上再次驛長詞進行切分,提高召回率,適合搜索引擎創(chuàng)建索引。
- 備選路徑,可生成最好的多條切詞路徑,可在此基礎(chǔ)上根據(jù)其它信息得到更精確的分詞模式。
可用插件:
- 正則表達式插件
- 人名前綴插件
- 地名后綴插件
- 定制功能。分詞過程產(chǎn)生4種階段,每個階段都可以加入個人的定制。
附加功能:
- 新詞學(xué)習(xí)功能。通過輸入大段文字,學(xué)習(xí)到此內(nèi)容產(chǎn)生的新老詞語。
- 獲取大段文本的關(guān)鍵字。
- 獲取大段文本的摘要。
- 支持用戶自定義詞典
Algorithm
- 核心是基于查找句子的最大概率路徑來進行分詞。
- 保證效率的基礎(chǔ)上,對分詞的各個階段進行定義,方便用戶添加屬于自己的分詞方法(默認有正則,前綴名字與后綴地名)。
- 用戶可自定義使用動態(tài)規(guī)劃或Dijdstra算法得到最優(yōu)的一條或多條路徑,再次可根據(jù)詞性(中科大ictclas的作法)等其它信息得獲得最優(yōu)路徑。
- 使用“最大熵”算法來實現(xiàn)對大文本的新詞發(fā)現(xiàn)能力,很適合使用它來創(chuàng)建自定義詞典,或在SNS等場合進行數(shù)據(jù)挖掘的工作。
- 相比已存在的結(jié)巴分詞,去掉了很消耗內(nèi)存的Trie樹結(jié)構(gòu),以及新詞發(fā)現(xiàn)能力并不強的HMM模型(未來此模型可能當(dāng)成一個備選插件加入到此模塊)。
目前狀態(tài)
以上提到的核心部分以及基礎(chǔ)功能都已得到實現(xiàn)。不過一些細節(jié)正在實現(xiàn)當(dāng)中,目前還未發(fā)布版本。 一些片段的代碼可以從我的代碼分享得到:http://www.oschina.net/code/list_by_user?id=1180874
評論
圖片
表情
