還在用 requests 寫(xiě)爬蟲(chóng)嗎?這個(gè)庫(kù)效率提高不止一倍!
最近公司? Python 后端項(xiàng)目進(jìn)行重構(gòu),整個(gè)后端邏輯基本都變更為采用"異步"協(xié)程的方式實(shí)現(xiàn)。看著滿屏幕經(jīng)過(guò) async await(協(xié)程在 Python 中的實(shí)現(xiàn))修飾的代碼,我頓時(shí)感到一臉懵逼,不知所措。
雖然之前有了解過(guò)"協(xié)程"是什么東西,但并沒(méi)有深入探索,于是正好借著這次機(jī)會(huì)可以好好學(xué)習(xí)一下。
什么是協(xié)程?
簡(jiǎn)單來(lái)說(shuō),協(xié)程是一種基于線程之上,但又比線程更加輕量級(jí)的存在。對(duì)于系統(tǒng)內(nèi)核來(lái)說(shuō),協(xié)程具有不可見(jiàn)的特性,所以這種由?程序員自己寫(xiě)程序來(lái)管理?的輕量級(jí)線程又常被稱作 "用戶空間線程"。
協(xié)程比多線程好在哪呢?
1. 線程的控制權(quán)在操作系統(tǒng)手中,而?協(xié)程的控制權(quán)完全掌握在用戶自己手中,因此利用協(xié)程可以減少程序運(yùn)行時(shí)的上下文切換,有效提高程序運(yùn)行效率。
2. 建立線程時(shí),系統(tǒng)默認(rèn)分配給線程的 棧 大小是 1 M,而協(xié)程更輕量,接近 1 K 。因此可以在相同的內(nèi)存中開(kāi)啟更多的協(xié)程。
3. 由于協(xié)程的本質(zhì)不是多線程而是單線程,所以不需要多線程的鎖機(jī)制。因?yàn)橹挥幸粋€(gè)線程,也不存在同時(shí)寫(xiě)變量而引起的沖突。在協(xié)程中控制共享資源不需要加鎖,只需要判斷狀態(tài)即可。所以協(xié)程的執(zhí)行效率比多線程高很多,同時(shí)也有效避免了多線程中的競(jìng)爭(zhēng)關(guān)系。
協(xié)程的適用 & 不適用場(chǎng)景
適用場(chǎng)景:協(xié)程適用于被阻塞的,且需要大量并發(fā)的場(chǎng)景。
不適用場(chǎng)景:協(xié)程不適用于存在大量計(jì)算的場(chǎng)景(因?yàn)閰f(xié)程的本質(zhì)是單線程來(lái)回切換),如果遇到這種情況,還是應(yīng)該使用其他手段去解決。
初探異步 http 框架 httpx
至此我們對(duì) "協(xié)程" 應(yīng)該有了個(gè)大概的了解,但故事說(shuō)到這里,相信有朋友還是滿臉疑問(wèn):"協(xié)程" 對(duì)于接口測(cè)試有什么幫助呢?不要著急,答案就在下面。
相信用過(guò) Python 做接口測(cè)試的朋友都對(duì) requests 庫(kù)不陌生。requests 中實(shí)現(xiàn)的 http 請(qǐng)求是同步請(qǐng)求,但其實(shí)基于 http 請(qǐng)求 IO 阻塞的特性,非常適合用協(xié)程來(lái)實(shí)現(xiàn) "異步" http 請(qǐng)求從而提升測(cè)試效率。?
相信早就有人注意到了這點(diǎn),于是在 Github 經(jīng)過(guò)了一番探索后,果不其然,最終尋找到了支持協(xié)程 "異步" 調(diào)用 http 的開(kāi)源庫(kù):?httpx
什么是 httpx
httpx 是一個(gè)幾乎繼承了所有 requests 的特性并且支持 "異步" http 請(qǐng)求的開(kāi)源庫(kù)。簡(jiǎn)單來(lái)說(shuō),可以認(rèn)為 httpx 是強(qiáng)化版 requests。
下面大家可以跟著我一起見(jiàn)識(shí)一下 httpx 的強(qiáng)大
安裝
httpx 的安裝非常簡(jiǎn)單,在 Python 3.6 以上的環(huán)境執(zhí)行
pip install httpx
最佳實(shí)踐
俗話說(shuō)得好,效率決定成敗。我分別使用了 httpx 異步 和 同步 的方式對(duì)批量 http 請(qǐng)求進(jìn)行了耗時(shí)比較,來(lái)一起看看結(jié)果吧~
首先來(lái)看看同步 http 請(qǐng)求的耗時(shí)表現(xiàn):
import?asyncioimport?httpximport?threadingimport timedef?sync_main(url,?sign):????response?=?httpx.get(url).status_code????print(f'sync_main:?{threading.current_thread()}:?{sign}2?+?1{response}')sync_start?=?time.time()[sync_main(url='http://www.baidu.com',?sign=i)?for?i?in?range(200)]sync_end?=?time.time()print(sync_end - sync_start)
代碼比較簡(jiǎn)單,可以看到在 sync_main 中則實(shí)現(xiàn)了同步 http 訪問(wèn)百度 200 次。
運(yùn)行后輸出如下(截取了部分關(guān)鍵輸出...):
sync_main:?<_MainThread(MainThread,?started?4471512512)>:?192:?200sync_main:?<_MainThread(MainThread,?started?4471512512)>:?193:?200sync_main:?<_MainThread(MainThread,?started?4471512512)>:?194:?200sync_main:?<_MainThread(MainThread,?started?4471512512)>:?195:?200sync_main:?<_MainThread(MainThread,?started?4471512512)>:?196:?200sync_main:?<_MainThread(MainThread,?started?4471512512)>:?197:?200sync_main:?<_MainThread(MainThread,?started?4471512512)>:?198:?200sync_main:?<_MainThread(MainThread,?started?4471512512)>:?199:?20016.56578803062439
可以看到在上面的輸出中, 主線程沒(méi)有進(jìn)行切換(因?yàn)楸緛?lái)就是單線程啊喂!)請(qǐng)求按照順序執(zhí)行(因?yàn)槭峭秸?qǐng)求)。
程序運(yùn)行共耗時(shí)?16.6 秒
下面我們?cè)囋?"異步" http 請(qǐng)求:
import?asyncioimport?httpximport?threadingimport?timeclient = httpx.AsyncClient()async?def?async_main(url,?sign):????response?=?await?client.get(url)????status_code?=?response.status_codeprint(f'async_main: {threading.current_thread()}: {sign}:{status_code}')loop?=?asyncio.get_event_loop()tasks?=?[async_main(url='http://www.baidu.com',?sign=i)?for?i?in?range(200)]async_start?=?time.time()loop.run_until_complete(asyncio.wait(tasks))async_end?=?time.time()loop.close()print(async_end - async_start)
上述代碼在 async_main 中用 async await 關(guān)鍵字實(shí)現(xiàn)了"異步" http,通過(guò) asyncio ( 異步 io 庫(kù)請(qǐng)求百度首頁(yè) 200 次并打印出了耗時(shí)。
運(yùn)行代碼后可以看到如下輸出(截取了部分關(guān)鍵輸出...)
async_main:?<_MainThread(MainThread,?started?4471512512)>:?56:?200async_main:?<_MainThread(MainThread,?started?4471512512)>:?99:?200async_main:?<_MainThread(MainThread,?started?4471512512)>:?67:?200async_main:?<_MainThread(MainThread,?started?4471512512)>:?93:?200async_main:?<_MainThread(MainThread,?started?4471512512)>:?125:?200async_main:?<_MainThread(MainThread,?started?4471512512)>:?193:?200async_main:?<_MainThread(MainThread,?started?4471512512)>:?100:?2004.518340110778809
可以看到順序雖然是亂的(56,99,67...) (這是因?yàn)槌绦蛟趨f(xié)程間不停切換)?但是主線程并沒(méi)有切換 (協(xié)程本質(zhì)還是單線程 )。
程序共耗時(shí)?4.5 秒
比起同步請(qǐng)求耗時(shí)的 16.6 秒 縮短了接近 73 %!
俗話說(shuō)得好,一步快,步步快。?在耗時(shí)方面,"異步" http 確實(shí)比同步 http 快了很多。當(dāng)然,"協(xié)程"?不僅僅能在請(qǐng)求效率方面賦能接口測(cè)試, 掌握 "協(xié)程"后,相信小伙伴們的技術(shù)水平也能提升一個(gè)臺(tái)階,從而設(shè)計(jì)出更優(yōu)秀的測(cè)試框架。
逆鋒起筆是一個(gè)專注于程序員圈子的技術(shù)平臺(tái),你可以收獲最新技術(shù)動(dòng)態(tài)、最新內(nèi)測(cè)資格、BAT等大廠的經(jīng)驗(yàn)、精品學(xué)習(xí)資料、職業(yè)路線、副業(yè)思維,微信搜索逆鋒起筆關(guān)注!
如果你覺(jué)得本文對(duì)你有所幫助,給我來(lái)個(gè)點(diǎn)贊、在看呀!
