Colly簡(jiǎn)單快速的 Web 爬蟲(chóng)框架
Colly 是一個(gè)采用 Go 語(yǔ)言編寫(xiě)的 Web 爬蟲(chóng)框架,旨在提供一個(gè)能夠?qū)懭魏闻老x(chóng)/采集器/蜘蛛的簡(jiǎn)潔模板。通過(guò) Colly ,你可以輕松從網(wǎng)站中提取結(jié)構(gòu)化的數(shù)據(jù),然后進(jìn)行數(shù)據(jù)挖掘、處理或歸檔。
項(xiàng)目特性
-
清晰明了的 API
-
快速(單個(gè)內(nèi)核上的請(qǐng)求數(shù)大于1k)
-
管理每個(gè)域的請(qǐng)求延遲和最大并發(fā)數(shù)
-
自動(dòng) cookie 和會(huì)話處理
-
同步/異步/并行抓取
-
高速緩存
-
自動(dòng)處理非 Unicode 編碼
-
支持 Robots.txt
-
支持 Google App Engine
-
通關(guān)環(huán)境變量進(jìn)行配置
-
可擴(kuò)展
示例
func main() {
c := colly.NewCollector()
// Find and visit all links
c.OnHTML("a[href]", func(e *colly.HTMLElement) {
e.Request.Visit(e.Attr("href"))
})
c.OnRequest(func(r *colly.Request) {
fmt.Println("Visiting", r.URL)
})
c.Visit("http://go-colly.org/")
}評(píng)論
圖片
表情
