<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了

          共 2757字,需瀏覽 6分鐘

           ·

          2021-03-25 21:19

          導(dǎo)讀:人們正在以前所未有的速度轉(zhuǎn)向互聯(lián)網(wǎng),我們?cè)诨ヂ?lián)網(wǎng)上所做的很多行為產(chǎn)生了大量的“用戶數(shù)據(jù)”,比如微博、購(gòu)買記錄等。


          互聯(lián)網(wǎng)成了海量信息的載體;互聯(lián)網(wǎng)目前是分析市場(chǎng)趨勢(shì)、監(jiān)視競(jìng)爭(zhēng)對(duì)手或者獲取銷售線索的最佳場(chǎng)所,數(shù)據(jù)采集以及分析能力已成為驅(qū)動(dòng)業(yè)務(wù)決策的關(guān)鍵技能。

          如何有效地提取并利用這些信息成了一個(gè)巨大的挑戰(zhàn),而網(wǎng)絡(luò)爬蟲(chóng)是一種很好的自動(dòng)采集數(shù)據(jù)的通用手段。本文將會(huì)對(duì)爬蟲(chóng)的類型、爬蟲(chóng)的抓取策略以及深入學(xué)習(xí)爬蟲(chóng)所需的網(wǎng)絡(luò)基礎(chǔ)等相關(guān)知識(shí)進(jìn)行介紹。

          作者:趙國(guó)生 王健
          來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)




          01 爬蟲(chóng)是什么

          網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中,更經(jīng)常地稱為網(wǎng)頁(yè)追逐者)是一種按照一定的規(guī)則,自動(dòng)抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。

          網(wǎng)絡(luò)爬蟲(chóng)通過(guò)爬取互聯(lián)網(wǎng)上網(wǎng)站服務(wù)器的內(nèi)容來(lái)工作。它是用計(jì)算機(jī)語(yǔ)言編寫的程序或腳本,用于自動(dòng)從Internet上獲取信息或數(shù)據(jù),掃描并抓取每個(gè)所需頁(yè)面上的某些信息,直到處理完所有能正常打開(kāi)的頁(yè)面。

          作為搜索引擎的重要組成部分,爬蟲(chóng)首要的功能就是爬取網(wǎng)頁(yè)數(shù)據(jù)(如圖2-1所示),目前市面流行的采集器軟件都是運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)的原理或功能。

          ▲圖2-1 網(wǎng)絡(luò)爬蟲(chóng)象形圖


          02 爬蟲(chóng)的意義

          現(xiàn)如今大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),網(wǎng)絡(luò)爬蟲(chóng)技術(shù)成為這個(gè)時(shí)代不可或缺的一部分,企業(yè)需要數(shù)據(jù)來(lái)分析用戶行為、自己產(chǎn)品的不足之處以及競(jìng)爭(zhēng)對(duì)手的信息等,而這一切的首要條件就是數(shù)據(jù)的采集。

          網(wǎng)絡(luò)爬蟲(chóng)的價(jià)值其實(shí)就是數(shù)據(jù)的價(jià)值,在互聯(lián)網(wǎng)社會(huì)中,數(shù)據(jù)是無(wú)價(jià)之寶,一切皆為數(shù)據(jù),誰(shuí)擁有了大量有用的數(shù)據(jù),誰(shuí)就擁有了決策的主動(dòng)權(quán)。網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用領(lǐng)域很多,如搜索引擎、數(shù)據(jù)采集、廣告過(guò)濾、大數(shù)據(jù)分析等。

          1)抓取各大電商網(wǎng)站的商品銷量信息及用戶評(píng)價(jià)來(lái)進(jìn)行分析,如圖2-2所示。

          ▲圖2-2 電商網(wǎng)站的商品銷售信息

          2)分析大眾點(diǎn)評(píng)、美團(tuán)網(wǎng)等餐飲類網(wǎng)站的用戶消費(fèi)、評(píng)價(jià)和發(fā)展趨勢(shì),如圖2-3所示。

          ▲圖2-3 餐飲類網(wǎng)站的用戶消費(fèi)信息

          3)分析各個(gè)城市中學(xué)區(qū)房的比例,以及學(xué)區(qū)房比普通二手房?jī)r(jià)格高出多少,如圖2-4所示。

          ▲圖2-4 學(xué)區(qū)房的比例與價(jià)格對(duì)比

          以上數(shù)據(jù)是通過(guò)前嗅ForeSpider數(shù)據(jù)采集軟件爬下來(lái)的,有興趣的讀者可以嘗試自己爬一些數(shù)據(jù)。


          03 爬蟲(chóng)的原理

          我們通常會(huì)將網(wǎng)絡(luò)爬蟲(chóng)的組成模塊分為初鏈接庫(kù)、網(wǎng)絡(luò)抓取模塊、網(wǎng)頁(yè)處理模塊、網(wǎng)頁(yè)分析模塊、DNS模塊、待抓取鏈接隊(duì)列、網(wǎng)頁(yè)庫(kù)等,網(wǎng)絡(luò)爬蟲(chóng)的各系模塊可形成一個(gè)循壞體系,從而不斷地進(jìn)行分析和抓取。

          爬蟲(chóng)的工作原理可以很簡(jiǎn)單地解釋為先找到目標(biāo)信息網(wǎng),然后頁(yè)面抓取模塊,接著頁(yè)面分析模塊,最后數(shù)據(jù)存儲(chǔ)模塊。其具體詳情如圖2-5所示。

          ▲圖2-5 爬蟲(chóng)原理圖

          爬蟲(chóng)工作基本流程:

          1. 首先在互聯(lián)網(wǎng)中選出一部分網(wǎng)頁(yè),以這些網(wǎng)頁(yè)的鏈接地址作為種子URL;
          2. 將這些種子URL放入待抓取的URL隊(duì)列中,爬蟲(chóng)從待抓取的URL隊(duì)列依次讀??; 
          3. 將URL通過(guò)DNS解析; 
          4. 把鏈接地址轉(zhuǎn)換為網(wǎng)站服務(wù)器對(duì)應(yīng)的IP地址; 
          5. 網(wǎng)頁(yè)下載器通過(guò)網(wǎng)站服務(wù)器對(duì)網(wǎng)頁(yè)進(jìn)行下載; 
          6. 下載的網(wǎng)頁(yè)為網(wǎng)頁(yè)文檔形式; 
          7. 對(duì)網(wǎng)頁(yè)文檔中的URL進(jìn)行抽??; 
          8. 過(guò)濾掉已經(jīng)抓取的URL; 
          9. 對(duì)未進(jìn)行抓取的URL繼續(xù)循環(huán)抓取,直至待抓取URL隊(duì)列為空。 


          04 爬蟲(chóng)技術(shù)的類型

          • 聚焦網(wǎng)絡(luò)爬蟲(chóng)是“面向特定主題需求”的一種爬蟲(chóng)程序,而通用網(wǎng)絡(luò)爬蟲(chóng)則是捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分,主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。
          • 增量抓取意即針對(duì)某個(gè)站點(diǎn)的數(shù)據(jù)進(jìn)行抓取,當(dāng)網(wǎng)站的新增數(shù)據(jù)或者該站點(diǎn)的數(shù)據(jù)發(fā)生變化后,自動(dòng)地抓取它新增的或者變化后的數(shù)據(jù)。
          • Web頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)(surface Web)和深層網(wǎng)頁(yè)(deep Web,也稱invisible Web pages或hidden Web)。
          • 表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,即以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)為主來(lái)構(gòu)成的Web頁(yè)面。
          • 深層網(wǎng)頁(yè)是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的Web頁(yè)面。

          關(guān)于爬蟲(chóng)技術(shù)類型的更詳細(xì)講解請(qǐng)戳詳解4種類型的爬蟲(chóng)技術(shù)

          關(guān)于作者:趙國(guó)生,哈爾濱師范大學(xué)教授,工學(xué)博士,碩士生導(dǎo)師,黑龍江省網(wǎng)絡(luò)安全技術(shù)領(lǐng)域特殊人才。主要從事可信網(wǎng)絡(luò)、入侵容忍、認(rèn)知計(jì)算、物聯(lián)網(wǎng)安全等方向的教學(xué)與科研工作。

          本文摘編自Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)與實(shí)戰(zhàn)》,經(jīng)出版方授權(quán)發(fā)布。

          延伸閱讀Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)與實(shí)戰(zhàn)
          點(diǎn)擊上圖了解及購(gòu)買
          轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData

          推薦語(yǔ):本書是一本系統(tǒng)、全面地介紹Python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)戰(zhàn)寶典。作者融合自己豐富的工程實(shí)踐經(jīng)驗(yàn),緊密結(jié)合演示應(yīng)用案例,內(nèi)容覆蓋了幾乎所有網(wǎng)絡(luò)爬蟲(chóng)涉及的核心技術(shù)。在內(nèi)容編排上,一步步地剖析算法背后的概念與原理,提供大量簡(jiǎn)潔的代碼實(shí)現(xiàn),助你從零基礎(chǔ)開(kāi)始編程實(shí)現(xiàn)深度學(xué)習(xí)算法。


          直播預(yù)告??


          • 3月25日20:00

          復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、蒲公英書作者邱錫鵬老師和大家分享《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》。本書系統(tǒng)整理深度學(xué)習(xí)的知識(shí)體系,從機(jī)器學(xué)習(xí)基礎(chǔ)、神經(jīng)網(wǎng)絡(luò)模型以及概率圖模型三個(gè)層面來(lái)串聯(lián)深度學(xué)習(xí)所涉及的知識(shí)點(diǎn),兼具系統(tǒng)性、條理性和全面性。

          干貨直達(dá)??


          更多精彩??

          在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT | 讀書 | 書單 | 硬核 | 干貨 | 講明白 | 神操作
          大數(shù)據(jù) | 云計(jì)算 | 數(shù)據(jù)庫(kù) | Python | 可視化
          AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
          5G | 中臺(tái) | 用戶畫像 1024 | 數(shù)學(xué) | 算法 數(shù)字孿生

          據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
          ??
          瀏覽 20
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷综合网 性 | 午夜久久久久久久久久影院 | 国产精品国产 | 成人开心五月天 | 欧美在线观看不卡 |