word分詞Java分布式中文分詞組件
word分詞是一個(gè)Java實(shí)現(xiàn)的分布式的中文分詞組件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。能準(zhǔn)確識(shí)別英文、數(shù)字,以及日期、時(shí)間等數(shù)量詞,能識(shí)別人名、地名、組織機(jī)構(gòu)名等未登錄詞。能通過自定義配置文件來改變組件行為,能自定義用戶詞庫、自動(dòng)檢測詞庫變化、支持大規(guī)模分布式環(huán)境,能靈活指定多種分詞算法,能使用refine功能靈活控制分詞結(jié)果,還能使用詞頻統(tǒng)計(jì)、詞性標(biāo)注、同義標(biāo)注、反義標(biāo)注、拼音標(biāo)注等功能。提供了10種分詞算法,還提供了10種文本相似度算法,同時(shí)還無縫和Lucene、Solr、ElasticSearch、Luke集成。
評論
圖片
表情
