spidernet多線程web爬蟲(chóng)程序
spidernet是一個(gè)以遞歸樹(shù)為模型的多線程web爬蟲(chóng)程序, 支持text/html資源的獲取. 可以設(shè)定爬行深度, 最大下載字節(jié)數(shù)限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲(chǔ)于sqlite數(shù)據(jù)文件.
源碼中TODO:標(biāo)記描述了未完成功能, 希望提交你的代碼.
評(píng)論
圖片
表情
下載APP