爬蟲必知必會(huì)的3款神器插件
前言
1.寫過爬蟲和網(wǎng)頁(yè)解析的人都知道,在定位、獲取xpath路徑上要花費(fèi)大量的時(shí)間,甚至有時(shí)候當(dāng)爬蟲框架成熟之后,基本上主要的時(shí)間都花費(fèi)在了頁(yè)面的解析上。
在沒有這些輔助工具的日子里,我們只能通過搜索html源代碼,定位一些id去找到對(duì)應(yīng)的位置,非常的麻煩,而且經(jīng)常出錯(cuò)。
2.在爬蟲的過程中,看到的頁(yè)面有可能是通過JavaScript渲染后的結(jié)果,這時(shí)html也是渲染的結(jié)果,
那么,如何通過禁止JavaScript的執(zhí)行,來查看最原始的代碼是什么樣的。
3.有些網(wǎng)站做反爬蟲處理,該如何切換代理呢?
所以今天推薦這三款爬蟲的谷歌插件!
分享一個(gè)chrome瀏覽器的小技巧
比如現(xiàn)在我們?cè)谧ト?博客園首頁(yè)的文章xpath 路徑
打開 開發(fā)者工具,鼠標(biāo)選中標(biāo)題元素上,右鍵》Capy 即可獲取xpath。
執(zhí)行capy xpath,獲取標(biāo)題元素在當(dāng)前父節(jié)點(diǎn)的xpath
//*[@id="post_list"]/div[1]/div[2]/h3/a
執(zhí)行capy full xpath,獲取標(biāo)題元素的在html文檔中的完整xpath
/html/body/div[1]/div[4]/div[6]/div[1]/div[2]/h3/a
我覺得這樣還不夠方便,畢竟你復(fù)制了沒法即時(shí)查看。所以我們需要這款開源的爬蟲利器!
1. Xpath Helper
xpath helper插件是一款免費(fèi)的chrome爬蟲網(wǎng)頁(yè)解析工具。
可以幫助用戶解決在獲取xpath路徑時(shí)無法正常定位等問題。
該插件主要能幫助你在各類網(wǎng)站上通過按shift鍵選擇想要查看的頁(yè)面元素來提取查詢其代碼,同時(shí)你還能對(duì)查詢出來的代碼進(jìn)行編輯,而編輯出的結(jié)果將立即顯示在旁邊的結(jié)果框中。

XPath調(diào)試
安裝好Xpath Helper后,我們?cè)賮碜ト?博客園首頁(yè)的文章xpath 路徑。
打開xpath-helper工具 復(fù)制好 xpath到左邊的輸入框 右邊輸入框?qū)@示xpath定位元素的文本內(nèi)容
這樣就可以在輸入文本框中輸入相應(yīng) XPath 進(jìn)行調(diào)試了,提取的結(jié)果將被顯示在旁邊的 Result 文本框中。

2. Proxy SwitchyOmega
輕松快捷地管理和切換多個(gè)代理設(shè)置。

快速切換 HTTP / Socks 代理的插件,還能根據(jù)匹配地址自動(dòng)切換。另一個(gè)技巧是配合 Charles、Burp Suite 這類抓包工具,這些工具使用時(shí)需要設(shè)置本地代理,可以提前設(shè)置好用時(shí)就切換。
3.Toggle JavaScript
在爬蟲的過程中,看到的頁(yè)面有可能是通過JavaScript渲染后的結(jié)果,這時(shí)html也是渲染的結(jié)果,
那么,可以通過禁止JavaScript的執(zhí)行,來查看最原始的代碼是什么樣的。
裝了Toggle JavaScript插件以后,用戶就可以使用該插件的按鈕,快速地切換chrome的javascript功能,當(dāng)用戶訪問網(wǎng)頁(yè)的時(shí)候,受到j(luò)avascript的“騷擾”時(shí),可以果斷使用Toggle JavaScript禁用到j(luò)s的運(yùn)行。

功能特點(diǎn):
1.全局JavaScript主開關(guān)
2.禁用JavaScript時(shí)可靠地重新加載頁(yè)面
如果你也有好的開源項(xiàng)目,歡迎推薦!
微信聯(lián)系:westbrook12000
往期推薦:

