larbin網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛
larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨(dú)立開發(fā)。larbin目的是能夠跟蹤頁面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。Larbin只是一個(gè)爬蟲,也就 是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲(chǔ)到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。一個(gè)簡單的larbin的爬蟲可以每天獲?。担埃叭f的網(wǎng)頁。
利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它建立url 列表群,例如針對(duì)所有的網(wǎng)頁進(jìn)行 url retrive后,進(jìn)行xml的聯(lián)結(jié)的獲取?;蛘呤?mp3,或者定制larbin,可以作為搜索引擎的信息的來源。
評(píng)論
圖片
表情
