CatGate基于瀏覽器的爬蟲(chóng)框架
CatGate 是一個(gè)基于瀏覽器插件的數(shù)據(jù)抓取工具。做成瀏覽器插件無(wú)需模擬登入,能最真實(shí)的模仿用戶行為和特征。
演示視頻
http://weibo.com/1088413295/F9P1izhY2
功能
-
① CatGate 會(huì)訪問(wèn)這個(gè)URL,這個(gè)URL應(yīng)該返回一個(gè)Json格式的數(shù)組,每一個(gè)元素一個(gè)字符串(即網(wǎng)址)。點(diǎn) ② 按鈕即可載入數(shù)據(jù),并可按 ③ 進(jìn)行查看,會(huì)自動(dòng)排重。
-
⑤ CatGate 抓取到數(shù)據(jù)后,會(huì)直接 POST 給這個(gè)URL,key 為 content , 通過(guò) $_REQUEST['content'] 即可獲取抓取內(nèi)容。
-
⑥ 默認(rèn)一秒抓取一次,如果抓取失敗太多,可以增加秒數(shù)。
-
④ 這是一個(gè)高級(jí)用法,就是 ① 這個(gè) URL 可以不停的新增 URL,CatGate 會(huì)自動(dòng)每隔一秒(可設(shè)置)去抓取并合并進(jìn)來(lái)。
Demo
進(jìn)入 php 目錄,運(yùn)行 php -S localhost:8000 即可測(cè)試。
-
list.php 這個(gè)頁(yè)面生成了要抓取的頁(yè)面列表,默認(rèn)是微博收藏的頁(yè)面。
-
save.php 這個(gè)頁(yè)面定義了如何處置抓到的數(shù)據(jù),默認(rèn)是保持成為文件。
安裝插件
如果你不想或不能在Chrome商店安裝插件,可手工安裝。
chrome > extentsion > load unpacked extension > ./ext
License
CC,保留簽名、非商用。
