終于有人把網(wǎng)絡(luò)爬蟲(chóng)講明白了
導(dǎo)讀:人們正在以前所未有的速度轉(zhuǎn)向互聯(lián)網(wǎng),我們?cè)诨ヂ?lián)網(wǎng)上所做的很多行為產(chǎn)生了大量的“用戶數(shù)據(jù)”,比如微博、購(gòu)買記錄等。






首先在互聯(lián)網(wǎng)中選出一部分網(wǎng)頁(yè),以這些網(wǎng)頁(yè)的鏈接地址作為種子URL; 將這些種子URL放入待抓取的URL隊(duì)列中,爬蟲(chóng)從待抓取的URL隊(duì)列依次讀??; 將URL通過(guò)DNS解析; 把鏈接地址轉(zhuǎn)換為網(wǎng)站服務(wù)器對(duì)應(yīng)的IP地址; 網(wǎng)頁(yè)下載器通過(guò)網(wǎng)站服務(wù)器對(duì)網(wǎng)頁(yè)進(jìn)行下載; 下載的網(wǎng)頁(yè)為網(wǎng)頁(yè)文檔形式; 對(duì)網(wǎng)頁(yè)文檔中的URL進(jìn)行抽??; 過(guò)濾掉已經(jīng)抓取的URL; 對(duì)未進(jìn)行抓取的URL繼續(xù)循環(huán)抓取,直至待抓取URL隊(duì)列為空。
聚焦網(wǎng)絡(luò)爬蟲(chóng)是“面向特定主題需求”的一種爬蟲(chóng)程序,而通用網(wǎng)絡(luò)爬蟲(chóng)則是捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分,主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。 增量抓取意即針對(duì)某個(gè)站點(diǎn)的數(shù)據(jù)進(jìn)行抓取,當(dāng)網(wǎng)站的新增數(shù)據(jù)或者該站點(diǎn)的數(shù)據(jù)發(fā)生變化后,自動(dòng)地抓取它新增的或者變化后的數(shù)據(jù)。 Web頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)(surface Web)和深層網(wǎng)頁(yè)(deep Web,也稱invisible Web pages或hidden Web)。
表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,即以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)為主來(lái)構(gòu)成的Web頁(yè)面。 深層網(wǎng)頁(yè)是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的Web頁(yè)面。


3月25日20:00
評(píng)論
圖片
表情
