phpSplitPHP 中文分詞包
phpSplit 是一個基于php開發(fā)的中文分詞庫。
居于Unicode編碼詞典的php分詞器
只適用于php5,必要函數(shù) iconv
本程序是使用RMM逆向匹配算法進行分詞的,詞庫需要特別編譯,本類里提供了 MakeDict() 方法
簡單操作流程: SetSource -> StartAnalysis -> GetResult
對主詞典使用特殊格式進行編碼, 不需要載入詞典到內(nèi)存操作
使用
首先 確保使用php為5.3+
安裝composer
composer install
require __DIR__ .'/vendor/autoload.php';
$split = new Split();
var_dump( $split->simple("您好 phpSplit"));
$this->assertTrue(True);
array(3) {
[0] =>
string(0) ""
[1] =>
string(6) "您好"
[2] =>
string(8) "phpSplit"
}
分詞結(jié)果后綴說明
名詞n、時間詞t、處所詞s、方位詞f、數(shù)詞m、量詞q、區(qū)別詞b、代詞r、動詞v、形容詞a、狀態(tài)詞z、副詞d、介詞p、連詞c、助詞u、語氣詞y、嘆詞e、擬聲詞o、成語i、習用語l、簡稱j、前接成分h、后接成分k、語素g、非語素字x、標點符號w
同事增加了以下3類標記 *專有名詞的分類標記,即人名nr,地名ns,團體機關(guān)單位名稱nt,其他專有名詞nz; *語素的子類標記,即名語素Ng,動語素Vg,形容語素Ag,時語素Tg,副語素Dg等; *動詞和形容詞的子類標記,即名動詞vn(具有名詞特性的動詞),名形詞an(具有名詞特性的形容詞),副動詞vd(具有副詞特性的動詞),副形詞ad(具有副詞特性的形容詞)
合計約40個左右。
歡迎大家完善
評論
圖片
表情
