簡介
Heritrix是一個開源,可擴展的web爬蟲項目。用戶可以使用它來從網(wǎng)上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。其最出色之處在于它良好的可擴展性,方便用戶實現(xiàn)自己的抓取邏輯。Heritrix是一個爬蟲框架,其組織結(jié)構(gòu)如圖2.1所... 更多
技術(shù)信息
開源協(xié)議
Apache
開發(fā)語言
Java
操作系統(tǒng)
跨平臺
軟件類型
開源軟件
所屬分類
應用工具、 網(wǎng)絡爬蟲
開源組織
無
地區(qū)
不詳
適用人群
未知
評價
0.0(滿分 10 分)0 個評分
什么是點評分
圖片
表情
全部評價(
0)
推薦率
100%

