text-classifier-collectionJava 文本分類器集合
text-classifier-collection 是一個文本分類器集合。一個強大易用的Java文本分類工具包
特色
-
功能全面
-
內(nèi)置信息檢索中各種常用的文本預處理方法,如語言感知分詞、詞干提取、繁簡轉(zhuǎn)換、停用詞去除、同義詞插入、n-gram生成等等
-
內(nèi)置SVM、kNN、樸素貝葉斯等多種分類器
-
內(nèi)置支持CSV等格式數(shù)據(jù)的讀取
-
-
高度可定制
-
你可以插入你編寫的分詞方法、單詞規(guī)范化方法、停用詞列表、同義詞列表、TF-IDF公式等等
-
可以輕易實現(xiàn)你自己的分類器而與工具包中其它工具一起使用
-
-
容易使用
-
可自動按給定數(shù)據(jù)集選取最優(yōu)分類器
-
與Java8引入的流和函數(shù)式API無縫結(jié)合
-
效果
| 數(shù)據(jù)集 | 樣本數(shù) | 分類數(shù) | 準確率 |
|---|---|---|---|
| YouTube Spam Collection | 1956 | 2 | 92.1% |
| SMS Spam Collection | 5574 | 2 | 98.2% |
| Sentence Classification | 1510 | 5 | 80.4% |
| Reuters-21578 Text Categorization Collection | 21578 | 135 | 59.8% |
| Reuters-21578 Text Categorization Collection | 21578 | 175 | 67.8% |
評論
圖片
表情
