classifier4php簡(jiǎn)單分類器
基于 PHP 和 word2vec 的簡(jiǎn)單分類器,用于文章、新聞等內(nèi)容自動(dòng)分類,
項(xiàng)目包含樣本訓(xùn)練、識(shí)別代碼,
分詞組件用的是 PhpAnalysis,簡(jiǎn)單靈活。
歡迎大家一起優(yōu)化并完善。
背景
每個(gè)搜索引擎其實(shí)都有一套完善的分類器,拿最簡(jiǎn)單的分類器舉例, 不管你是巨頭門(mén)戶還是垂直三、四級(jí)以下的網(wǎng)站,他都能識(shí)別你的站點(diǎn)類型。 面向海量?jī)?nèi)容的今天,隨隨便便就能從互聯(lián)網(wǎng)采集、抓取海量的數(shù)據(jù), 而數(shù)據(jù)又雜亂無(wú)章,如果用人工整理歸類,太浪費(fèi)資源了。
作者做過(guò)各類站群、垂直站點(diǎn),深知分類器的重要性。
運(yùn)行環(huán)境
操作系統(tǒng):windows \ *inux
PHP 版本:PHP 5+
PHP 依賴:PHP-mbstring.
word2vec:window xp
如果您的操作系統(tǒng)是Linux、Centos等,
您需要自行下載 word2vec ( https://code.google.com/p/word2vec/ )編譯。
然后修改 run.php 中 word2vec 執(zhí)行路徑:
define('EXE_WORD2VEC', 'word2vec.exe');
系統(tǒng)自帶了基于 windows 的 word2vec 版本。
項(xiàng)目實(shí)例
項(xiàng)目中寫(xiě)了一個(gè)將小說(shuō)自動(dòng)訓(xùn)練并歸類為:現(xiàn)代和古代的例子。
訓(xùn)練集結(jié)果文件已經(jīng)存在于 source_data 目錄中。
您可以直接將要識(shí)別的小說(shuō)文件放至 source_target 中,即可自動(dòng)識(shí)別。
運(yùn)行方式
配置 PHP 路徑到系統(tǒng)環(huán)境變量 PATH 中,或者手工執(zhí)行: /path/php run.php > run.log
即可在 run.log 中看到運(yùn)行結(jié)果。
注:windows 下,設(shè)置好 PATH 后,也可以直接運(yùn)行 run.bat
