smallseg中文分詞工具包
smallseg -- 開源的,基于DFA的輕量級的中文分詞工具包
特點:可自定義詞典、切割后返回登錄詞列表和未登錄詞列表、有一定的新詞識別能力。
Python 示例代碼:
s3 = file("text.txt").read()
words = [x.rstrip() for x in file("main.dic") ]
from smallseg import SEG
seg = SEG()
print 'Load dict...'
seg.set(words)
print "Dict is OK."
A,B = seg.cut(s3) #A是識別出的登錄詞列表,B是未登錄詞列表
for t in A:
try:
print t.decode('utf-8')
except:
pass
print "============================"
for t in B:
try:
print t.decode('utf-8')
except:
pass
Java 示例代碼:
Seg seg = new Seg();
seg.useDefaultDict();
System.out.println(seg.cut("至于在這個程序中沒有太大的意義, 這是Java提供的強制轉(zhuǎn)化機制。草泥馬"));
stdout>>
r:[至于, 在這, 程序, 沒有, 太大, 意義, 這是, 提供, 強制, 轉(zhuǎn)化, 機制]
u:[Java, 草泥馬, 泥馬]
(因為“草泥馬”并沒有在詞庫中)評論
圖片
表情
