搜索引擎技術(shù)之網(wǎng)絡(luò)爬蟲
日期 : 2021年09月13日
正文共 :3217字
閱讀目錄
1. 網(wǎng)絡(luò)爬蟲技術(shù)基本工作流程和基礎(chǔ)架構(gòu) 2. 網(wǎng)絡(luò)爬蟲的抓取策略 3. 網(wǎng)絡(luò)爬蟲更新策略 4. 分布式抓取系統(tǒng)結(jié)構(gòu) 5. 參考內(nèi)容

1. 網(wǎng)絡(luò)爬蟲技術(shù)基本工作流程和基礎(chǔ)架構(gòu)

2. 網(wǎng)絡(luò)爬蟲的抓取策略



3. 網(wǎng)絡(luò)爬蟲更新策略
盡管搜索引擎針對于某個查詢條件能夠返回數(shù)量巨大的結(jié)果,但是用戶往往只關(guān)注前幾頁結(jié)果。因此,抓取系統(tǒng)可以優(yōu)先更新那些現(xiàn)實(shí)在查詢結(jié)果前幾頁中的網(wǎng)頁,而后再更新那些后面的網(wǎng)頁。這種更新策略也是需要用到歷史信息的。用戶體驗(yàn)策略保留網(wǎng)頁的多個歷史版本,并且根據(jù)過去每次內(nèi)容變化對搜索質(zhì)量的影響,得出一個平均值,用這個值作為決定何時重新抓取的依據(jù)。
3)聚類抽樣策略

4. 分布式抓取系統(tǒng)結(jié)構(gòu)




5. 參考內(nèi)容
— THE END —

評論
圖片
表情
