Gather Platform數(shù)據(jù)采集平臺(tái)
Gather Platform 數(shù)據(jù)抓取平臺(tái)是一套基于 Webmagic 內(nèi)核的,具有 Web 任務(wù)配置和任務(wù)管理界面的數(shù)據(jù)采集平臺(tái),一個(gè)輕量級(jí)的搜索引擎系統(tǒng)。具有以下功能
-
根據(jù)配置的模板進(jìn)行數(shù)據(jù)采集
-
對(duì)采集的數(shù)據(jù)進(jìn)行NLP處理,包括:抽取關(guān)鍵詞,抽取摘要,抽取實(shí)體詞
-
自定義任務(wù)循環(huán)執(zhí)行周期,一次定義,無(wú)人值守,自動(dòng)采集
-
在不配置采集模板的情況下自動(dòng)檢測(cè)網(wǎng)頁(yè)正文,自動(dòng)抽取文章發(fā)布時(shí)間
-
動(dòng)態(tài)字段抽取與靜態(tài)字段植入
-
已抓取數(shù)據(jù)的管理,包括:搜索,增刪改查,按照新的數(shù)據(jù)模板重新抽取數(shù)據(jù)
-
多數(shù)據(jù)輸出方式:Elasticsearch、JSON文本,Redis
5分鐘即可部署完畢,半分鐘即可完成一個(gè)爬蟲(chóng),開(kāi)始數(shù)據(jù)采集. 不需要進(jìn)行任何編碼就可以完成一個(gè)功能強(qiáng)大的爬蟲(chóng).
爬蟲(chóng)模板配置頁(yè)面
抓取樣例數(shù)據(jù)效果
爬蟲(chóng)管理頁(yè)面
循環(huán)任務(wù)監(jiān)測(cè)
數(shù)據(jù)搜索與管理頁(yè)面
網(wǎng)頁(yè)信息查看
關(guān)聯(lián)信息頁(yè)
根據(jù)域名統(tǒng)計(jì)數(shù)據(jù)頁(yè)面
具體部署方式參考項(xiàng)目主頁(yè)README
百度云下載鏈接密碼: v3jm
