女淫香蕉,不卡不卡不卡不卡不卡国产精品视频 ,欧美在线手机性免费,www.操逼逼,在线亚洲欧洲,色站综合,亚州国产色婷婷,av三集在线

YahaPython 中文分詞庫

聯(lián)合創(chuàng)作 · 2023-09-29 05:24

"啞哈"中文分詞，更快或更準(zhǔn)確，由你來定義。通過簡單定制，讓分詞模塊更適用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

基本功能：

可用插件：

附加功能：

Algorithm

核心是基于查找句子的最大概率路徑來進行分詞。
保證效率的基礎(chǔ)上，對分詞的各個階段進行定義，方便用戶添加屬于自己的分詞方法(默認有正則，前綴名字與后綴地名)。
用戶可自定義使用動態(tài)規(guī)劃或Dijdstra算法得到最優(yōu)的一條或多條路徑，再次可根據(jù)詞性(中科大ictclas的作法)等其它信息得獲得最優(yōu)路徑。
使用“最大熵”算法來實現(xiàn)對大文本的新詞發(fā)現(xiàn)能力，很適合使用它來創(chuàng)建自定義詞典，或在SNS等場合進行數(shù)據(jù)挖掘的工作。
相比已存在的結(jié)巴分詞，去掉了很消耗內(nèi)存的Trie樹結(jié)構(gòu)，以及新詞發(fā)現(xiàn)能力并不強的HMM模型(未來此模型可能當(dāng)成一個備選插件加入到此模塊)。

目前狀態(tài)

以上提到的核心部分以及基礎(chǔ)功能都已得到實現(xiàn)。不過一些細節(jié)正在實現(xiàn)當(dāng)中，目前還未發(fā)布版本。一些片段的代碼可以從我的代碼分享得到：http://www.oschina.net/code/list_by_user?id=1180874

點贊

舉報