keyword-extractURL 關(guān)鍵詞提取工具
單文件、無三方依賴、支持在線規(guī)則升級(jí)、非標(biāo)準(zhǔn)協(xié)議的 URL 關(guān)鍵詞提取工具。
使用
<dependency> <groupId>com.ecfront</groupId> <artifactId>keyword-extract</artifactId> <version>1.4</version> </dependency>
// 關(guān)鍵詞提取
KeyWordExtract.Result result = KeyWordExtract.extract(url);
// 使用在線規(guī)則
KeyWordExtract.loadOnlineRules("https://raw.githubusercontent.com/gudaoxuri/keyword-extract/master/src/main/resources/kwe-rules.txt");
規(guī)則配置說明
本地規(guī)則文件默認(rèn)已打到 jar 中,如要修改可在 classpath 根目錄中創(chuàng)建 kwe-rules.txt 文件,此文件會(huì)覆蓋默認(rèn)規(guī)則。
使用在線規(guī)則會(huì)覆蓋自定義規(guī)則。
# 一行一條規(guī)則,配置項(xiàng)以|分隔
# 規(guī)則分一般規(guī)則和自定義規(guī)則,后者使用js代碼處理
# 一般規(guī)則
<名稱>|<host>|<關(guān)鍵字所在位置,query:查詢條件中,path:url路徑中>|<對(duì)于query位置指定關(guān)鍵字的key,對(duì)于path位置指定以/分隔的偏移量>|<解碼方式,目前只支持decodeURI,空>|<編碼>
e.g. :
百度|www.baidu.com|query|wd|decodeURI|UTF-8
搜狗微信|weixin.sogou.com|query|query|encodeURI|UTF-8
蘇寧|search.suning.com|path|0|decodeURI|UTF-8
# 自定義規(guī)則
<名稱>|<host>|<js代碼,入?yún)閡ri,返回值為result>
e.g. :
微博|s.weibo.com|var uri = decodeURI(decodeURI(uri)); var kv = uri.split("/")[2]; result = kv.split("&Refer=")[0];
# 自定義協(xié)議支持
app://app1/somepath?q=URL關(guān)鍵詞提取
custom://custom1/somepath?q=URL關(guān)鍵詞提取評(píng)論
圖片
表情
