DenseSpider網(wǎng)絡(luò)爬蟲
本項目 fork 項目go_spider,github:https://github.com/hu17889/go_spider ,因此項目架構(gòu)的部分文檔可以參考此項目。
同時項目架構(gòu)、部分思路參考了 python 的經(jīng)典爬蟲scrapy。
基本結(jié)構(gòu):
Spider模塊(主控) Downloader模塊(下載器) PageProcesser模塊(頁面分析) History(Url采集歷史記錄) Scheduler模塊(任務(wù)隊列) Pipeline模塊(結(jié)果輸出)
主要Feature:
1. 基于Go語言的并發(fā)采集 2. 頁面下載、分析、持久化模塊化,可自定義擴展 3. 采集日志記錄(Mongodb支持) 4. 頁面數(shù)據(jù)自定義存儲(Mysql、Mongodb) 5. 深度遍歷,同時可自定義深度層次 6. Xpath解析
主要用于定向采集網(wǎng)站。
評論
圖片
表情
