神器啊!比requests還好用的Python高效爬蟲框架!
原文地址:https://juejin.cn/post/7099280151648665613
最近公司 Python 后端項(xiàng)目進(jìn)行重構(gòu),整個(gè)后端邏輯基本都變更為采用"異步"協(xié)程的方式實(shí)現(xiàn)??粗鴿M屏幕經(jīng)過 async await(協(xié)程在 Python 中的實(shí)現(xiàn))修飾的代碼,我頓時(shí)感到一臉懵逼,不知所措。
雖然之前有了解過"協(xié)程"是什么東西,但并沒有深入探索,于是正好借著這次機(jī)會(huì)可以好好學(xué)習(xí)一下。
Let's go

什么是協(xié)程?
協(xié)程比多線程好在哪呢?
協(xié)程的適用 & 不適用場(chǎng)景
初探異步 http 框架 httpx
相信早就有人注意到了這點(diǎn),于是在 Github 經(jīng)過了一番探索后,果不其然,最終尋找到了支持協(xié)程 "異步" 調(diào)用 http 的開源庫(kù): httpx
什么是 httpx
安裝
pip install httpx最佳實(shí)踐
import asyncioimport httpximport threadingimport timedef sync_main(url, sign):response = httpx.get(url).status_codeprint(f'sync_main: {threading.current_thread()}: {sign}2 + 1{response}')sync_start = time.time()[sync_main(url='http://www.baidu.com', sign=i) for i in range(200)]sync_end = time.time()print(sync_end - sync_start)
sync_main: <_MainThread(MainThread, started 4471512512)>: 192: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 193: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 194: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 195: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 196: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 197: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 198: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 199: 20016.56578803062439
import asyncioimport httpximport threadingimport timeclient = httpx.AsyncClient()async def async_main(url, sign):response = await client.get(url)status_code = response.status_codeprint(f'async_main: {threading.current_thread()}: {sign}:{status_code}')loop = asyncio.get_event_loop()tasks = [async_main(url='http://www.baidu.com', sign=i) for i in range(200)]async_start = time.time()loop.run_until_complete(asyncio.wait(tasks))async_end = time.time()loop.close()print(async_end - async_start)
async_main: <_MainThread(MainThread, started 4471512512)>: 56: 200async_main: <_MainThread(MainThread, started 4471512512)>: 99: 200async_main: <_MainThread(MainThread, started 4471512512)>: 67: 200async_main: <_MainThread(MainThread, started 4471512512)>: 93: 200async_main: <_MainThread(MainThread, started 4471512512)>: 125: 200async_main: <_MainThread(MainThread, started 4471512512)>: 193: 200async_main: <_MainThread(MainThread, started 4471512512)>: 100: 2004.518340110778809
推薦閱讀:
入門: 最全的零基礎(chǔ)學(xué)Python的問題 | 零基礎(chǔ)學(xué)了8個(gè)月的Python | 實(shí)戰(zhàn)項(xiàng)目 |學(xué)Python就是這條捷徑
干貨:爬取豆瓣短評(píng),電影《后來的我們》 | 38年NBA最佳球員分析 | 從萬(wàn)眾期待到口碑撲街!唐探3令人失望 | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個(gè)海量小姐姐素描圖 |碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影
趣味:彈球游戲 | 九宮格 | 漂亮的花 | 兩百行Python《天天酷跑》游戲!
AI: 會(huì)做詩(shī)的機(jī)器人 | 給圖片上色 | 預(yù)測(cè)收入 | 碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影
小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水??! | 一鍵把html網(wǎng)頁(yè)保存為pdf!| 再見PDF提取收費(fèi)! | 用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r(jià)機(jī)票提示器! |60行代碼做了一個(gè)語(yǔ)音壁紙切換器天天看小姐姐!|
年度爆款文案
點(diǎn)閱讀原文,看B站我的20個(gè)視頻!

