snailsegPython 中文分詞庫(kù)
snailseg:Chinese Words Segment Library in Python 簡(jiǎn)單的中文分詞庫(kù)
在線(xiàn)分詞效果展示 https://snailsegdemo.appspot.com/
Usage
- 將snailseg目錄放置于當(dāng)前目錄或者site-packages目錄
- import snailseg
代碼示例
import snailseg
words = snailseg.cut("南京市長(zhǎng)江大橋")
for w in words:
print w
Algorithm
- 算法是統(tǒng)計(jì)單字在詞語(yǔ)中出現(xiàn)位置的概率大小,選擇最大可能的分詞方案
- 算法簡(jiǎn)單,只有100行純Python代碼
Performance
- 700 KB/Second
- Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《圍城》.txt
Example
- https://github.com/fxsjy/snailseg/blob/master/test.py
- 在線(xiàn)分詞效果展示 https://snailsegdemo.appspot.com/
Sentences:
cuttest("這是一個(gè)伸手不見(jiàn)五指的黑夜。我叫孫悟空,我愛(ài)北京,我愛(ài)Python和C++。")
cuttest("我不喜歡日本和服")
cuttest("雷猴回歸人間")
cuttest("工信處女干事每月經(jīng)過(guò)下屬科室都要親口交代24口交換機(jī)等技術(shù)性器件的安裝工作")
cuttest("我需要廉租房")
cuttest("永和服裝飾品有限公司")
cuttest("我愛(ài)北京天安門(mén)")
cuttest("abc")
cuttest("隱馬爾可夫")
cuttest("雷猴是個(gè)好網(wǎng)站")
cuttest("“Microsoft”一詞由“MICROcomputer(微型計(jì)算機(jī))”和“SOFTware(軟件)”兩部分組成")
cuttest("草泥馬和欺實(shí)馬是今年的流行詞匯")
cuttest("伊藤洋華堂總府店")
cuttest("中國(guó)科學(xué)院計(jì)算技術(shù)研究所")
cuttest("羅密歐與朱麗葉 Hahaha")
cuttest("新生小鼠中肌紅蛋白含量較成年鼠高嗎?")
cuttest("南京市長(zhǎng)江大橋")
cuttest("乒乓球拍賣(mài)完了")
cuttest("大")
cuttest("")
Efect:
這是 / 一個(gè) / 伸手 / 不見(jiàn) / 五指 / 的 / 黑夜 / 我 / 叫 / 孫悟空 / 我愛(ài) / 北京 /
我愛(ài) / Python / 和 / C++ /
我 / 不 / 喜歡 / 日本 / 和服 /
雷 / 猴 / 回歸 / 人間 /
工信處 / 女 / 干事 / 每月 / 經(jīng)過(guò) / 下屬 / 科室 / 都 / 要 / 親口 / 交代 / 24 / 口
/ 交換機(jī) / 等 / 技術(shù)性 / 器件 / 的 / 安裝 / 工作 /
我 / 需要 / 廉租 / 房 /
永和 / 服裝 / 飾品 / 有限 / 公司 /
我愛(ài) / 北京 / 天安 / 門(mén) /
abc /
隱 / 馬爾 / 可夫 /
雷 / 猴 / 是 / 個(gè) / 好網(wǎng) / 站 /
Microsoft / 一 / 詞 / 由 / MICROcomputer / 微型 / 計(jì)算機(jī) / 和 / SOFTware / 軟件
/ 兩部 / 分組 / 成 /
草泥馬 / 和 / 欺 / 實(shí) / 馬 / 是 / 今年 / 的 / 流行 / 詞匯 /
伊藤 / 洋華堂 / 總府 / 店 /
中國(guó) / 科學(xué)院 / 計(jì)算 / 技術(shù) / 研究 / 所 /
羅密 / 歐 / 與 / 朱麗 / 葉 / Hahaha /
新生 / 小鼠 / 中 / 肌 / 紅蛋 / 白 / 含量 / 較 / 成年 / 鼠 / 高 / 嗎 /
南京市 / 長(zhǎng)江 / 大橋 /
乒乓 / 球拍 / 賣(mài) / 完了 /
大 /評(píng)論
圖片
表情
