GECCO易用的輕量化的網(wǎng)絡(luò)爬蟲
Gecco是什么
Gecco是一款用java語言開發(fā)的輕量化的易用的網(wǎng)絡(luò)爬蟲。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等優(yōu)秀框架,讓您只需要配置一些jquery風(fēng)格的選擇器就能很快的寫出一個爬蟲。Gecco框架有優(yōu)秀的可擴(kuò)展性,框架基于開閉原則進(jìn)行設(shè)計(jì),對修改關(guān)閉、對擴(kuò)展開放。同時Gecco基于十分開放的MIT開源協(xié)議,無論你是使用者還是希望共同完善Gecco的開發(fā)者,歡迎pull request。如果你喜歡這款爬蟲框架請star 或者 fork!
主要特征
簡單易用,使用jquery風(fēng)格的選擇器抽取元素
支持頁面中的異步ajax請求
支持頁面中的javascript變量抽取
利用Redis實(shí)現(xiàn)分布式抓取,參考gecco-redis
支持結(jié)合Spring開發(fā)業(yè)務(wù)邏輯,參考gecco-spring
支持htmlunit擴(kuò)展,參考gecco-htmlunit
支持插件擴(kuò)展機(jī)制
支持下載時UserAgent隨機(jī)選取
支持下載代理服務(wù)器隨機(jī)選取
評論
圖片
表情
