FoolNLTK中文處理工具包
FoolNLTK
中文處理工具包
特點(diǎn)
可能不是最快的開(kāi)源中文分詞,但很可能是最準(zhǔn)的開(kāi)源中文分詞
基于BiLSTM模型訓(xùn)練而成
包含分詞,詞性標(biāo)注,實(shí)體識(shí)別, 都有比較高的準(zhǔn)確率
用戶自定義詞典
Install
pip install foolnltk
使用說(shuō)明
分詞
import fool text = "一個(gè)傻子在北京" print(fool.cut(text)) # ['一個(gè)', '傻子', '在', '北京']
命令行分詞
python -m fool [filename]
用戶自定義詞典
詞典格式格式如下,詞的權(quán)重越高,詞的長(zhǎng)度越長(zhǎng)就越越可能出現(xiàn), 權(quán)重值請(qǐng)大于1
難受香菇 10 什么鬼 10 分詞工具 10 北京 10 北京天安門 10
加載詞典
import fool fool.load_userdict(path) text = "我在北京天安門看你難受香菇" print(fool.cut(text)) # ['我', '在', '北京天安門', '看', '你', '難受香菇']
刪除詞典
fool.delete_userdict();
詞性標(biāo)注
import fool
text = "一個(gè)傻子在北京"
print(fool.pos_cut(text))
#[('一個(gè)', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]
實(shí)體識(shí)別
import fool text = "一個(gè)傻子在北京" words, ners = fool.analysis(text) print(ners) #[(5, 8, 'location', '北京')]
注意
暫時(shí)只在Python3 Linux 平臺(tái)測(cè)試通過(guò)
評(píng)論
圖片
表情
