Crawler跨平臺(tái)不寫代碼的爬蟲
Crawler 基于 Java 開發(fā)的一款跨平臺(tái)爬蟲,可以使用Shell腳本和DOS命令進(jìn)行任務(wù)式處理。
比如CR命令 使用一個(gè)Email正則就可以從貼吧中提取所有郵箱
使用Ci命令 爬取所有新聞 java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml
使用Crawler抓取騰訊新聞并保存入庫(kù):http://my.oschina.net/u/2311702/blog/652856
詳細(xì)信息:http://git.oschina.net/puguoan/Crawler
可以與Shell DOS命令等配合組成跨平臺(tái)、分布式、多線程的爬蟲
評(píng)論
圖片
表情
