錯(cuò)誤的路線害死人,2021最全Python爬蟲學(xué)習(xí)路線和學(xué)習(xí)資料!
↑?關(guān)注 + 星標(biāo)?,每天學(xué)Python新技能
后臺(tái)回復(fù)【大禮包】送你Python自學(xué)大禮包
這是我的Python學(xué)習(xí)路線的第二篇,專門針對爬蟲的學(xué)習(xí)路線,涵蓋了從入門到入神的4個(gè)階段,有目標(biāo),有路線,有作業(yè),也給了學(xué)習(xí)資源。

作為一個(gè)工程師,總會(huì)時(shí)不時(shí)需要寫一些爬蟲。
這年頭,非工程師都在學(xué)習(xí)寫爬蟲。會(huì)計(jì),HR,運(yùn)營,銷售都想通過爬蟲提高工作效率。
我曾經(jīng)帶隊(duì)開發(fā)過兩個(gè)大型的爬蟲項(xiàng)目:
1. 正品折扣
爬取包括淘寶,京東在內(nèi)的幾十家商城的商品信息,找出正品。同樣商品找出最美麗的價(jià)格,類似于曾經(jīng)的一淘。
這個(gè)產(chǎn)品雖然沒有獲得商業(yè)上的成功,但在App市場上有幾百萬的下載量。這樣的項(xiàng)目沒有大資本,根本玩不轉(zhuǎn)。
2. 天眼資訊
抓取上百家垂直媒體網(wǎng)站,為某細(xì)分行業(yè)獲取相關(guān)資訊,幫助決策者獲得最新的政策法規(guī),商機(jī),競爭對手動(dòng)向等。
現(xiàn)在我們來說Python爬蟲學(xué)習(xí)路線。
1 Python基礎(chǔ)
Python編程的基礎(chǔ)是必不可少的,這里有兩個(gè)要點(diǎn):
你不需要等到精通了Python才去實(shí)踐爬蟲。 但你確實(shí)需要刻意加強(qiáng)系統(tǒng)的Python技能。

沒有廣闊的山脊,珠峰不可能那么高;沒有深厚的編程基礎(chǔ),爬蟲也不會(huì)爬的太深!
所以,打好Python基礎(chǔ):

推薦資源:
我只推薦我看過的書,這確實(shí)是一本入門的經(jīng)典好書:
2 能力階梯
我把爬蟲能力分成了四個(gè)等級:

第1級:能爬弱雞網(wǎng)站
會(huì)爬基本沒有防御的網(wǎng)站,會(huì)加基本的Header 會(huì)翻頁,能抓取多頁 會(huì)基本的文件處理,懂爬蟲禮儀
第2級:能爬一般防御網(wǎng)站
能夠爬取通過header做防御的網(wǎng)站 能夠配合手工,爬取需要登錄的網(wǎng)站(cookie) 會(huì)爬取前后端分離的網(wǎng)站
第3級:能爬專業(yè)防御網(wǎng)站
能爬取有專業(yè)反爬措施的網(wǎng)站,如淘寶,優(yōu)酷等 RPA:能自動(dòng)登錄,操作表單,完成工作流程 能自動(dòng)或半自動(dòng)破解各種驗(yàn)證碼
第4級:能設(shè)計(jì)大型爬蟲系統(tǒng)
能端到端設(shè)計(jì)和實(shí)現(xiàn)大型的爬蟲系統(tǒng) 爬取目標(biāo),爬取策略,大數(shù)據(jù)處理 系統(tǒng)的反反爬策略,通用爬蟲,AI爬蟲
3 學(xué)習(xí)路線
現(xiàn)在來看看如何一級一級往上爬:
第1級 沒有防御的網(wǎng)站

1. 挑戰(zhàn)作業(yè)
目標(biāo):爬取中關(guān)村在線的笑話,會(huì)自動(dòng)翻頁。請注意爬蟲禮儀,不要爬的太兇。 網(wǎng)址:http://xiaohua.zol.com.cn/detail1/1.html
2. 知識(shí)技能
requests基本用法,簡單的HTTP知識(shí) HTML基本知識(shí),beautifulsoup基本用法 爬蟲禮儀, 基本的python文件讀寫
3. 學(xué)習(xí)資源
HTTP https://www.runoob.com/http/http-tutorial.html HTML https://www.w3school.com.cn/ beautifulsoup https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ requests https://requests.readthedocs.io/zh_CN/latest/ 其他資源請?jiān)诠娞?hào):麥?zhǔn)寰幊?/strong>,回復(fù)爬蟲。
第2級 能爬一般學(xué)習(xí)網(wǎng)站

1. 挑戰(zhàn)作業(yè)
目標(biāo):完整爬取異步社區(qū)書單 網(wǎng)址:http://xiaohua.zol.com.cn/detail1/1.html
2. 知識(shí)技能
HTTP知識(shí),尤其是HTTP Headers HTML,JSON,JavaScript一般性了解 Chrome開發(fā)者工具,Postman
3. 學(xué)習(xí)資源
加深HTTP https://www.runoob.com/http/http-tutorial.html JavaScript,JSON: https://www.w3school.com.cn/ Chrome開發(fā)者工具 https://www.html.cn/doc/chrome-devtools/ Postman https://www.postman.com/downloads/ 其他資源請?jiān)诠娞?hào):麥?zhǔn)寰幊?/strong>,回復(fù)爬蟲。
第3級 自動(dòng)操作, JS解密,破解各種驗(yàn)證碼

1. 挑戰(zhàn)作業(yè)
根據(jù)自定義規(guī)則在淘寶挑選優(yōu)質(zhì)商品,能自動(dòng)登錄賬號(hào),抓訂單信息 網(wǎng)址:https://www.taobao.com
2. 知識(shí)技能
HTTP POST請求,加深HTML,JS加解密,正則 tesserocr, 第三方驗(yàn)證碼API selenium, pyautogui, appinium(爬App)
3. 學(xué)習(xí)資源
html, DOM, XPath https://www.w3school.com.cn/ tesseract https://github.com/sirfz/tesserocr 常見驗(yàn)證碼 https://www.geetest.com/ selenium https://selenium-python-zh.readthedocs.io/en/latest/ pyautogui https://pyautogui.readthedocs.io/en/latest/
第4級 設(shè)計(jì)大型爬蟲系統(tǒng)

1. 挑戰(zhàn)作業(yè)
設(shè)計(jì)一個(gè)系統(tǒng)可以爬取淘寶,京東,拼多多等多個(gè)商城 對比同一商品在不同商城的價(jià)格
2. 知識(shí)技能
scrapy, scrapy-redis, scrapyd 數(shù)據(jù)處理:MySQL, Redis, Elastic Search 代理池,通用爬蟲(RE或AI)
3. 學(xué)習(xí)資源
scrapy https://www.osgeo.cn/scrapy/ scrapyd https://piaosanlang.gitbooks.io/spiders/content/07day/README7.html MySQL https://www.docs4dev.com/docs/zh/mysql/5.7/reference Redis http://www.redis.cn/ 代理池 https://github.com/jhao104/proxy_pool
5 書籍推薦
我只推薦我看過的書,這本爬蟲書涵蓋了本路線中的大部分內(nèi)容,建議購買:
6 知識(shí)體系
把上面所有東西都羅列出來可以分成三部分:
藍(lán)色的是核心必備基礎(chǔ),HTTP是爬蟲使用的交流語言,HTML, JSON是數(shù)據(jù)的格式,而DOM, CSS等是解析數(shù)據(jù)的通用技術(shù)。 黃色的是通用工具或技術(shù),不管你用Python,還是Java,或者其他編程語言,這些你都用的到。但嚴(yán)格來說,他們不是必備的,都有替代方案。 而單純Python的東西只有上面的綠色部分,相對來說還比較簡單。
相對來說,學(xué)習(xí)爬蟲是有點(diǎn)困難的,因?yàn)樗婕暗搅颂嗟乃{(lán)色必備基礎(chǔ),還需要用到黃色的通用工具。
7 實(shí)戰(zhàn)項(xiàng)目
當(dāng)你有了一定的基礎(chǔ),最好的學(xué)習(xí)方式就是參考開源的項(xiàng)目,去實(shí)戰(zhàn),去實(shí)戰(zhàn),去實(shí)戰(zhàn)!
我給你收集了很多實(shí)戰(zhàn)項(xiàng)目?;旧?,你想爬誰都可以找到參考的例子:
搜集各種爬蟲 https://github.com/facert/awesome-spider 模擬登錄各大網(wǎng)站 https://github.com/CharlesPikachu/DecryptLogin 音樂下載 https://github.com/CharlesPikachu/musicdl 視頻下載 https://github.com/CharlesPikachu/Video-Downloader Baidu. 谷歌、百度、必應(yīng)圖片下載 https://github.com/sczhengyabin/Image-Downloader 各大視頻網(wǎng)站 https://github.com/iawia002/annie 12306 購票小助手 https://github.com/testerSunshine/12306 滑動(dòng)驗(yàn)證碼破解 https://github.com/darbra/geetest 有趣的Python爬蟲和Python數(shù)據(jù)分析小項(xiàng)目 https://github.com/Alfred1984/interesting-python Bilibili 用戶爬蟲 https://github.com/airingursb/bilibili-user 新浪微博爬蟲 https://github.com/LiuXingMing/SinaSpider 中國知網(wǎng)爬蟲 https://github.com/yanzhou/CnkiSpider 鏈家爬蟲 https://github.com/lanbing510/LianJiaSpider 京東爬蟲 https://github.com/taizilongxu/scrapy_jingdong 反反爬蟲 https://github.com/luyishisi/Anti-Anti-Spider
點(diǎn)贊是美德
你動(dòng)動(dòng)手指,就是對我最大的鼓勵(lì),點(diǎn)贊,點(diǎn)再看,轉(zhuǎn)發(fā),三連走起!
見面禮
掃碼加我微信備注「三劍客」送你上圖三本Python入門電子書
推薦閱讀
點(diǎn)分享 點(diǎn)收藏 點(diǎn)點(diǎn)贊 點(diǎn)在看





