Proxy-Pool給爬蟲使用的代理 IP 池
ProxyPool
獲取可用代理池的庫,從網(wǎng)上抓取的代理很多都是不可用的。這個庫先用爬蟲抓取代理,再做一些檢查是否可用,可用的話就存放到mongodb中。
ProxyPool可以供給網(wǎng)絡(luò)爬蟲使用,ProxyPool由Spring Boot+RxJava2.x+MongoDB搭建
使用方法:
單獨使用ProxyPool抓取邏輯,無任何界面,可用于任何項目,無侵入性
對于Java工程如果使用gradle構(gòu)建,由于默認沒有使用jcenter(),需要在相應(yīng)module的build.gradle中配置
repositories {
mavenCentral()
jcenter()
}
Gradle:
compile 'com.cv4j.proxy:proxypool:1.1.5'
也可以將該repository clone下來獨立運行,帶web界面
本地需要事先搭建好MongoDB的環(huán)境。
可用的代理會存放到MongoDB中,每隔幾小時(可配置)會重新抓取一次可用的代理。如果在抓取代理時遇到http status 503的情況,代理池會使用其中的代理來訪問數(shù)據(jù)源再進行抓取。
最新的免費代理資源:http://47.97.7.119:8080/proxypool/proxylist
管理代理資源網(wǎng)站:http://47.97.7.119:8080/proxypool/resourcelist
把代理資源添加到計劃任務(wù):http://47.97.7.119:8080/proxypool/planlist
預覽效果如下:
另外,還提供了一個接口,可以返回代理池中的Proxy
線上環(huán)境地址:http://47.97.7.119:8080/proxypool/proxys/{count}
類型:GET
參數(shù)說明:count<=0 count="">數(shù)據(jù)庫里總數(shù)量, 也返回全部的代理數(shù)據(jù)
以上鏈接在本地運行時,請把具體的IP地址替換成localhost即可
評論
圖片
表情
