HanLP自然語(yǔ)言處理
HanLP: Han Language Processing
漢語(yǔ)言處理包
HanLP 是由一系列模型與算法組成的 Java 工具包,目標(biāo)是普及自然語(yǔ)言處理在生產(chǎn)環(huán)境中的應(yīng)用。HanLP 具備功能完善、性能高效、架構(gòu)清晰、語(yǔ)料時(shí)新、可自定義的特點(diǎn)。
HanLP 提供下列功能:
-
中文分詞
-
最短路分詞
-
N-最短路分詞
-
CRF分詞
-
索引分詞
-
極速詞典分詞
-
用戶自定義詞典
-
-
詞性標(biāo)注
-
命名實(shí)體識(shí)別
-
中國(guó)人名識(shí)別
-
音譯人名識(shí)別
-
日本人名識(shí)別
-
地名識(shí)別
-
實(shí)體機(jī)構(gòu)名識(shí)別
-
-
關(guān)鍵詞提取
-
TextRank關(guān)鍵詞提取
-
-
自動(dòng)摘要
-
TextRank自動(dòng)摘要
-
-
短語(yǔ)提取
-
基于互信息和左右信息熵的短語(yǔ)提取
-
-
拼音轉(zhuǎn)換
-
多音字
-
聲母
-
韻母
-
聲調(diào)
-
-
簡(jiǎn)繁轉(zhuǎn)換
-
繁體中文分詞
-
簡(jiǎn)繁分歧詞
-
-
文本推薦
-
語(yǔ)義推薦
-
拼音推薦
-
字詞推薦
-
-
依存句法分析
-
MaxEnt依存句法分析
-
CRF依存句法分析
-
-
語(yǔ)料庫(kù)工具
-
分詞語(yǔ)料預(yù)處理
-
詞頻詞性詞典制作
-
BiGram統(tǒng)計(jì)
-
詞共現(xiàn)統(tǒng)計(jì)
-
CoNLL語(yǔ)料預(yù)處理
-
CoNLL UA/LA/DA評(píng)測(cè)工具
-
在提供豐富功能的同時(shí),HanLP 內(nèi)部模塊堅(jiān)持低耦合、模型堅(jiān)持惰性加載、服務(wù)堅(jiān)持靜態(tài)提供、詞典堅(jiān)持明文發(fā)布,使用非常方便,同時(shí)自帶一些語(yǔ)料處理工具,幫助用戶訓(xùn)練自己的語(yǔ)料。
