Hawk_Crawler數(shù)據(jù)采集和清洗工具
HAWK是一種數(shù)據(jù)采集和清洗工具,依據(jù)GPL協(xié)議開(kāi)源,能夠靈活,有效地采集來(lái)自網(wǎng)頁(yè),數(shù)據(jù)庫(kù),文件, 并通過(guò)可視化地拖拽, 快速地進(jìn)行生成,過(guò)濾,轉(zhuǎn)換等操作。其功能最適合的領(lǐng)域,是爬蟲(chóng)和數(shù)據(jù)清洗。
Hawk的含義為“鷹”,能夠高效,準(zhǔn)確地捕殺獵物。
HAWK使用C# 編寫(xiě),其前端界面使用WPF開(kāi)發(fā),支持插件擴(kuò)展。通過(guò)圖形化操作,能夠快速建立解決方案。
GitHub地址:https://github.com/ferventdesert/Hawk
其Python等價(jià)的實(shí)現(xiàn)是etlpy:http://www.cnblogs.com/buptzym/p/5320552.html
筆者專(zhuān)門(mén)為其開(kāi)發(fā)的工程文件已公開(kāi)在GitHub:https://github.com/ferventdesert/Hawk-Projects
使用時(shí),點(diǎn)擊文件,加載工程即可加載。不想編譯的話,可執(zhí)行文件在:https://github.com/ferventdesert/Hawk/tree/master/Versions
編譯路徑在: Hawk.Core\Hawk.Core.sln
以獲取大眾點(diǎn)評(píng)的所有北京美食為例,使用本軟件可在10分鐘內(nèi)完成配置,在1小時(shí)之內(nèi)自動(dòng)并行抓取全部?jī)?nèi)容,并能監(jiān)視子線程工作情況。而手工編寫(xiě)代碼,即使是使用python,一個(gè)熟練的程序員也可能需要一天以上:
視頻演示,復(fù)雜度由小到大:

