ansj_segAnsj中文分詞
Ansj中文分詞
使用幫助
摘要
這是一個(gè)基于n-Gram+CRF+HMM的中文分詞的java實(shí)現(xiàn)。
分詞速度達(dá)到每秒鐘大約200萬(wàn)字左右(mac air下測(cè)試),準(zhǔn)確率能達(dá)到96%以上。
目前實(shí)現(xiàn)了中文分詞、中文姓名識(shí)別、用戶自定義詞典、關(guān)鍵字提取、自動(dòng)摘要、關(guān)鍵字標(biāo)記等功能。
可以應(yīng)用到自然語(yǔ)言處理等方面,適用于對(duì)分詞效果要求高的各種項(xiàng)目。
maven
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
調(diào)用demo
如果你第一次下載只想測(cè)試測(cè)試效果可以調(diào)用這個(gè)簡(jiǎn)易接口
String str = "歡迎使用ansj_seg,(ansj中文分詞)在這里如果你遇到什么問(wèn)題都可以聯(lián)系我.我一定盡我所能.幫助大家.ansj_seg更快,更準(zhǔn),更自由!" ;
System.out.println(ToAnalysis.parse(str));
?歡迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分詞/n,),在/p,這里/r,如果/c,你/r,遇到/v,什么/r,問(wèn)題/n,都/d,可以/v,聯(lián)系/v,我/r,./m,我/r,一定/d,盡我所能/l,./m,幫助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,準(zhǔn)/a,,,更/d,自由/a,!
Join Us
想了很久,不管有沒(méi)有人幫忙吧。我寫上來(lái),如果你有興趣,有熱情可以聯(lián)系我。
- 補(bǔ)充文檔,增加調(diào)用實(shí)例和說(shuō)明
- 增加一些規(guī)則性Recognition,舉例身份證號(hào)碼識(shí)別,目前未完成的有
時(shí)間識(shí)別,IP地址識(shí)別,郵箱識(shí)別,網(wǎng)址識(shí)別,詞性識(shí)別等... - 提供更加優(yōu)化的CRF模型。替換ansj的默認(rèn)模型。
- 補(bǔ)充測(cè)試用例,n多地方測(cè)試不完全。如果你有興趣可以幫忙啦!
- 重構(gòu)人名識(shí)別模型。增加機(jī)構(gòu)名識(shí)別等模型。
- 增加句法文法分析
- 實(shí)現(xiàn)lstm的分詞方式
- 拾遺補(bǔ)漏...
評(píng)論
圖片
表情
