scsegPython中文分詞
scseg中文分詞,是基于mmseg的簡(jiǎn)單分詞組件
Feature
- 支持pinyin分詞
- 支持用戶(hù)自定義詞典
- 支持單位合并
- 支持漢字?jǐn)?shù)字識(shí)別
Install
- pip install scseg
- 通過(guò)import scseg來(lái)引用
Algorithm
- 采用mmseg算法進(jìn)行切分
- 采用規(guī)則方式支持中文數(shù)字分詞
功能 1):分詞scseg.seg_text方法
- scseg.seg_text函數(shù)接受3個(gè)參數(shù):
- text參數(shù)為需要分詞的字符
- ext_dict_words為用戶(hù)自定義的擴(kuò)展字典
- use_combine代表是否需要合并處理
代碼示例( 全功能分詞 )
#encoding=utf-8 import genius seg_list = scseg.seg_text(u'中國(guó)人民站起來(lái)了pinyin') print '\n'.join(seg_list)
功能 2):面向索引的分詞
- scseg.seg_keywords為面向索引的切割方式
- 其作用是枚舉出所有可能的切割方式
- text參數(shù)為需要分詞的字符
代碼示例( 全功能分詞 )
#encoding=utf-8 import scseg seg_list = scseg.seg_keywords(u'中國(guó)人民站起來(lái)了pinyin') print '\n'.join(seg_list)
評(píng)論
圖片
表情
