<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          神器啊!比requests還好用的Python高效爬蟲框架!

          共 4780字,需瀏覽 10分鐘

           ·

          2022-07-06 08:09

          原文地址:https://juejin.cn/post/7099280151648665613

          最近公司  Python 后端項(xiàng)目進(jìn)行重構(gòu),整個(gè)后端邏輯基本都變更為采用"異步"協(xié)程的方式實(shí)現(xiàn)??粗鴿M屏幕經(jīng)過 async await(協(xié)程在 Python 中的實(shí)現(xiàn))修飾的代碼,我頓時(shí)感到一臉懵逼,不知所措。


          雖然之前有了解過"協(xié)程"是什么東西,但并沒有深入探索,于是正好借著這次機(jī)會(huì)可以好好學(xué)習(xí)一下。


          Let's go



          什么是協(xié)程?

          簡(jiǎn)單來說,協(xié)程是一種基于線程之上,但又比線程更加輕量級(jí)的存在。對(duì)于系統(tǒng)內(nèi)核來說,協(xié)程具有不可見的特性,所以這種由 程序員自己寫程序來管理 的輕量級(jí)線程又常被稱作 "用戶空間線程"。

          協(xié)程比多線程好在哪呢?

          1. 線程的控制權(quán)在操作系統(tǒng)手中,而協(xié)程的控制權(quán)完全掌握在用戶自己手中,因此利用協(xié)程可以減少程序運(yùn)行時(shí)的上下文切換,有效提高程序運(yùn)行效率。

          2. 建立線程時(shí),系統(tǒng)默認(rèn)分配給線程的大小是 1 M,而協(xié)程更輕量,接近 1 K ,因此可以在相同的內(nèi)存中開啟更多的協(xié)程。

          3. 由于協(xié)程的本質(zhì)不是多線程而是單線程,所以不需要多線程的鎖機(jī)制。因?yàn)橹挥幸粋€(gè)線程,也不存在同時(shí)寫變量而引起的沖突。在協(xié)程中控制共享資源不需要加鎖,只需要判斷狀態(tài)即可。所以協(xié)程的執(zhí)行效率比多線程高很多,同時(shí)也有效避免了多線程中的競(jìng)爭(zhēng)關(guān)系。

          協(xié)程的適用 & 不適用場(chǎng)景

          適用場(chǎng)景:協(xié)程適用于被阻塞的,且需要大量并發(fā)的場(chǎng)景。

          不適用場(chǎng)景:協(xié)程不適用于存在大量計(jì)算的場(chǎng)景(因?yàn)閰f(xié)程的本質(zhì)是單線程來回切換),如果遇到這種情況,還是應(yīng)該使用其他手段去解決。

          初探異步 http 框架 httpx

          至此我們對(duì) "協(xié)程" 應(yīng)該有了個(gè)大概的了解,但故事說到這里,相信有朋友還是滿臉疑問:"協(xié)程" 對(duì)于接口測(cè)試有什么幫助呢?不要著急,答案就在下面。

          相信用過 Python 做接口測(cè)試的朋友都對(duì) requests 庫(kù)不陌生。requests 中實(shí)現(xiàn)的 http 請(qǐng)求是同步請(qǐng)求,但其實(shí)基于 http 請(qǐng)求 IO 阻塞的特性,非常適合用協(xié)程來實(shí)現(xiàn) "異步" http 請(qǐng)求從而提升測(cè)試效率。 

          相信早就有人注意到了這點(diǎn),于是在 Github 經(jīng)過了一番探索后,果不其然,最終尋找到了支持協(xié)程 "異步" 調(diào)用 http 的開源庫(kù): httpx


          什么是 httpx

          httpx 是一個(gè)幾乎繼承了所有 requests 的特性并且支持 "異步" http 請(qǐng)求的開源庫(kù)。簡(jiǎn)單來說,可以認(rèn)為 httpx 是強(qiáng)化版 requests。

          下面大家可以跟著我一起見識(shí)一下 httpx 的強(qiáng)大

          安裝

          httpx 的安裝非常簡(jiǎn)單,在 Python 3.6 以上的環(huán)境執(zhí)行

          pip install httpx

          最佳實(shí)踐

          俗話說得好,效率決定成敗。我分別使用了 httpx 異步 和 同步 的方式對(duì)批量 http 請(qǐng)求進(jìn)行了耗時(shí)比較,來一起看看結(jié)果吧~

          首先來看看同步 http 請(qǐng)求的耗時(shí)表現(xiàn):

          import asyncioimport httpximport threadingimport time
          def sync_main(url, sign): response = httpx.get(url).status_code print(f'sync_main: {threading.current_thread()}: {sign}2 + 1{response}')
          sync_start = time.time()[sync_main(url='http://www.baidu.com', sign=i) for i in range(200)]sync_end = time.time()print(sync_end - sync_start)

          代碼比較簡(jiǎn)單,可以看到在 sync_main 中則實(shí)現(xiàn)了同步 http 訪問百度 200 次。

          運(yùn)行后輸出如下(截取了部分關(guān)鍵輸出...):

          sync_main: <_MainThread(MainThread, started 4471512512)>: 192: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 193: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 194: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 195: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 196: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 197: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 198: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 199: 20016.56578803062439

          可以看到在上面的輸出中, 主線程沒有進(jìn)行切換(因?yàn)楸緛砭褪菃尉€程啊喂?。┱?qǐng)求按照順序執(zhí)行(因?yàn)槭峭秸?qǐng)求)。

          程序運(yùn)行共耗時(shí) 16.6 秒

          下面我們?cè)囋?"異步" http 請(qǐng)求:

          import asyncioimport httpximport threadingimport time
          client = httpx.AsyncClient()
          async def async_main(url, sign): response = await client.get(url) status_code = response.status_code    print(f'async_main: {threading.current_thread()}{sign}:{status_code}')
          loop = asyncio.get_event_loop()tasks = [async_main(url='http://www.baidu.com', sign=i) for i in range(200)]async_start = time.time()loop.run_until_complete(asyncio.wait(tasks))async_end = time.time()loop.close()print(async_end - async_start)

          上述代碼在 async_main 中用 async await 關(guān)鍵字實(shí)現(xiàn)了"異步" http,通過 asyncio ( 異步 io 庫(kù)請(qǐng)求百度首頁(yè) 200 次并打印出了耗時(shí))。

          運(yùn)行代碼后可以看到如下輸出(截取了部分關(guān)鍵輸出...)

          async_main: <_MainThread(MainThread, started 4471512512)>: 56: 200async_main: <_MainThread(MainThread, started 4471512512)>: 99: 200async_main: <_MainThread(MainThread, started 4471512512)>: 67: 200async_main: <_MainThread(MainThread, started 4471512512)>: 93: 200async_main: <_MainThread(MainThread, started 4471512512)>: 125: 200async_main: <_MainThread(MainThread, started 4471512512)>: 193: 200async_main: <_MainThread(MainThread, started 4471512512)>: 100: 2004.518340110778809

          可以看到順序雖然是亂的(56,99,67...) (這是因?yàn)槌绦蛟趨f(xié)程間不停切換) 但是主線程并沒有切換 (協(xié)程本質(zhì)還是單線程 )。

          程序共耗時(shí) 4.5 秒

          比起同步請(qǐng)求耗時(shí)的 16.6 秒 縮短了接近 73 %!

          俗話說得好,一步快,步步快。 在耗時(shí)方面,"異步" httpx 確實(shí)比同步 http 快了很多。當(dāng)然,"協(xié)程" 不僅僅能在請(qǐng)求效率方面賦能接口測(cè)試, 掌握 "協(xié)程"后,相信小伙伴們的技術(shù)水平也能提升一個(gè)臺(tái)階,從而設(shè)計(jì)出更優(yōu)秀的測(cè)試框架。

          好了,這就是今天分享的全部?jī)?nèi)容,喜歡就點(diǎn)個(gè)贊吧~



          推薦閱讀:

          入門: 最全的零基礎(chǔ)學(xué)Python的問題  | 零基礎(chǔ)學(xué)了8個(gè)月的Python  | 實(shí)戰(zhàn)項(xiàng)目 |學(xué)Python就是這條捷徑


          干貨:爬取豆瓣短評(píng),電影《后來的我們》 | 38年NBA最佳球員分析 |   從萬(wàn)眾期待到口碑撲街!唐探3令人失望  | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個(gè)海量小姐姐素描圖 |碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影


          趣味:彈球游戲  | 九宮格  | 漂亮的花 | 兩百行Python《天天酷跑》游戲!


          AI: 會(huì)做詩(shī)的機(jī)器人 | 給圖片上色 | 預(yù)測(cè)收入 | 碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影


          小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水??! | 一鍵把html網(wǎng)頁(yè)保存為pdf!|  再見PDF提取收費(fèi)! | 用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r(jià)機(jī)票提示器! |60行代碼做了一個(gè)語(yǔ)音壁紙切換器天天看小姐姐!



          年度爆款文案

          點(diǎn)閱讀原文,看B站我的20個(gè)視頻!

          瀏覽 49
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美亚洲成人精品 | 大鸡巴久久久久久久久 | 秋霞福利片 | 约了个苗条身材妹子 在线 | 青娱乐在线视频观看 |