<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          爬蟲必知必會(huì)的3款神器插件

          共 1692字,需瀏覽 4分鐘

           ·

          2020-08-06 13:54






          前言

          1.寫過爬蟲和網(wǎng)頁(yè)解析的人都知道,在定位、獲取xpath路徑上要花費(fèi)大量的時(shí)間,甚至有時(shí)候當(dāng)爬蟲框架成熟之后,基本上主要的時(shí)間都花費(fèi)在了頁(yè)面的解析上。

          在沒有這些輔助工具的日子里,我們只能通過搜索html源代碼,定位一些id去找到對(duì)應(yīng)的位置,非常的麻煩,而且經(jīng)常出錯(cuò)。

          2.在爬蟲的過程中,看到的頁(yè)面有可能是通過JavaScript渲染后的結(jié)果,這時(shí)html也是渲染的結(jié)果,

          那么,如何通過禁止JavaScript的執(zhí)行,來查看最原始的代碼是什么樣的。

          3.有些網(wǎng)站做反爬蟲處理,該如何切換代理呢?

          所以今天推薦這三款爬蟲的谷歌插件!

          分享一個(gè)chrome瀏覽器的小技巧

          比如現(xiàn)在我們?cè)谧ト?博客園首頁(yè)的文章xpath 路徑

          打開 開發(fā)者工具,鼠標(biāo)選中標(biāo)題元素上,右鍵》Capy 即可獲取xpath。

          執(zhí)行capy xpath,獲取標(biāo)題元素在當(dāng)前父節(jié)點(diǎn)的xpath

          //*[@id="post_list"]/div[1]/div[2]/h3/a

          執(zhí)行capy full xpath,獲取標(biāo)題元素的在html文檔中的完整xpath

          /html/body/div[1]/div[4]/div[6]/div[1]/div[2]/h3/a

          我覺得這樣還不夠方便,畢竟你復(fù)制了沒法即時(shí)查看。所以我們需要這款開源的爬蟲利器!

          1. Xpath Helper

          xpath helper插件是一款免費(fèi)的chrome爬蟲網(wǎng)頁(yè)解析工具。

          可以幫助用戶解決在獲取xpath路徑時(shí)無法正常定位等問題。

          該插件主要能幫助你在各類網(wǎng)站上通過按shift鍵選擇想要查看的頁(yè)面元素來提取查詢其代碼,同時(shí)你還能對(duì)查詢出來的代碼進(jìn)行編輯,而編輯出的結(jié)果將立即顯示在旁邊的結(jié)果框中。

          image

          XPath調(diào)試

          安裝好Xpath Helper后,我們?cè)賮碜ト?博客園首頁(yè)的文章xpath 路徑。

          • 打開xpath-helper工具
          • 復(fù)制好 xpath到左邊的輸入框
          • 右邊輸入框?qū)@示xpath定位元素的文本內(nèi)容

          這樣就可以在輸入文本框中輸入相應(yīng) XPath 進(jìn)行調(diào)試了,提取的結(jié)果將被顯示在旁邊的 Result 文本框中。

          2. Proxy SwitchyOmega

          輕松快捷地管理和切換多個(gè)代理設(shè)置。

          快速切換 HTTP / Socks 代理的插件,還能根據(jù)匹配地址自動(dòng)切換。另一個(gè)技巧是配合 Charles、Burp Suite 這類抓包工具,這些工具使用時(shí)需要設(shè)置本地代理,可以提前設(shè)置好用時(shí)就切換。

          3.Toggle JavaScript

          在爬蟲的過程中,看到的頁(yè)面有可能是通過JavaScript渲染后的結(jié)果,這時(shí)html也是渲染的結(jié)果,

          那么,可以通過禁止JavaScript的執(zhí)行,來查看最原始的代碼是什么樣的。

          裝了Toggle JavaScript插件以后,用戶就可以使用該插件的按鈕,快速地切換chrome的javascript功能,當(dāng)用戶訪問網(wǎng)頁(yè)的時(shí)候,受到j(luò)avascript的“騷擾”時(shí),可以果斷使用Toggle JavaScript禁用到j(luò)s的運(yùn)行。

          功能特點(diǎn):

          1.全局JavaScript主開關(guān)

          2.禁用JavaScript時(shí)可靠地重新加載頁(yè)面


          如果你也有好的開源項(xiàng)目,歡迎推薦!

          微信聯(lián)系:westbrook12000

          往期推薦:


          臥槽:第一次見這么牛x的網(wǎng)站!
          一招搞定github下載速度到2MB/s
          推薦:Asp.Net Core開源免費(fèi)的內(nèi)容管理系統(tǒng)



          回復(fù)?【關(guān)閉】學(xué)關(guān)閉微信朋友圈廣告
          回復(fù)?【實(shí)戰(zhàn)】獲取20套實(shí)戰(zhàn)源碼
          回復(fù)?【福利】獲取最新微信支付有獎(jiǎng)勵(lì)
          回復(fù)?【被刪】學(xué)查看你哪個(gè)好友刪除了你巧
          回復(fù)?【聊天記錄】學(xué)備份/恢復(fù)聊天記錄
          回復(fù)?【訪客】學(xué)微信查看朋友圈訪客記錄
          回復(fù)?【卡通】學(xué)制作微信卡通頭像
          回復(fù)?【python】學(xué)微獲取全套0基礎(chǔ)Python知識(shí)手冊(cè)
          回復(fù)?【臨時(shí)】獲取臨時(shí)接收短信、郵箱驗(yàn)證碼網(wǎng)址列表



          瀏覽 31
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产成人a亚洲精品 | 高清无码扣逼视频 | 操逼、com| 日韩中文字幕有码 | 极品日韩|