亚洲AV无码国产综合专区,男女操逼视频网站,白丝美女自慰在线观看,欧美色逼综合,免费观看亚洲,xxxx日本少妇,日韩网站在线观看,俺去了在线视频

文 |?閑歡

來源：Python 技術(shù)「ID: pythonall」

金屬質(zhì)感分割線

今天在瀏覽知乎時，發(fā)現(xiàn)一個有趣的問題：

如何優(yōu)化 Python 爬蟲的速度？

他的問題描述是：

目前在寫一個 Python 爬蟲，單線程 urllib 感覺過于慢了，達不到數(shù)據(jù)量的要求（十萬級頁面）。求問有哪些可以提高爬取效率的方法？

這個問題還蠻多人關(guān)注的，但是回答的人卻不多。

我今天就來嘗試著回答一下這個問題。

程序提速這個問題其實解決方案就擺在那里，要么通過并發(fā)來提高單位時間內(nèi)處理的工作量，要么從程序本身去找提效點，比如爬取的數(shù)據(jù)用gzip傳輸、提高處理數(shù)據(jù)的速度等。

我會分別從幾種常見的并發(fā)方法去做同一件事情，從而比較處理效率。

簡單版本爬蟲

我們先來一個簡單的爬蟲，看看單線程處理會花費多少時間？

import?time
import?requests
from?datetime?import?datetime


def?fetch(url):
????r?=?requests.get(url)
????print(r.text)

start?=?datetime.now()

t1?=?time.time()
for?i?in?range(100):
????fetch('http://httpbin.org/get')

print('requests版爬蟲耗時：',?time.time()?-?t1)

# requests版爬蟲耗時：54.86306357383728

我們用一個爬蟲的測試網(wǎng)站，測試爬取100次，用時是54.86秒。

多線程版本爬蟲

下面我們將上面的程序改為多線程版本：

import?threading
import?time
import?requests


def?fetch():
????r?=?requests.get('http://httpbin.org/get')
????print(r.text)

t1?=?time.time()

t_list?=?[]
for?i?in?range(100):
????t?=?threading.Thread(target=fetch,?args=())
????t_list.append(t)
????t.start()

for?t?in?t_list:
????t.join()

print("多線程版爬蟲耗時：",?time.time()?-?t1)

#?多線程版爬蟲耗時：0.8038511276245117

我們可以看到，用上多線程之后，速度提高了68倍。其實用這種方式的話，由于我們并發(fā)操作，所以跑100次跟跑一次的時間基本是一致的。這只是一個簡單的例子，實際情況中我們不可能無限制地增加線程數(shù)。

多進程版本爬蟲

除了多線程之外，我們還可以使用多進程來提高爬蟲速度：

import?requests
import?time
import?multiprocessing
from?multiprocessing?import?Pool

MAX_WORKER_NUM?=?multiprocessing.cpu_count()

def?fetch():
????r?=?requests.get('http://httpbin.org/get')
????print(r.text)

if?__name__?==?'__main__':
????t1?=?time.time()
????p?=?Pool(MAX_WORKER_NUM)
????for?i?in?range(100):
????????p.apply_async(fetch,?args=())
????p.close()
????p.join()

????print('多進程爬蟲耗時：',?time.time()?-?t1)

多進程爬蟲耗時：?7.9846765995025635

我們可以看到多進程處理的時間是多線程的10倍，比單線程版本快7倍。

協(xié)程版本爬蟲

我們將程序改為使用 aiohttp 來實現(xiàn)，看看效率如何：

import?aiohttp
import?asyncio
import?time


async?def?fetch(client):
????async?with?client.get('http://httpbin.org/get')?as?resp:
????????assert?resp.status?==?200
????????return?await?resp.text()


async?def?main():
????async?with?aiohttp.ClientSession()?as?client:
????????html?=?await?fetch(client)
????????print(html)

loop?=?asyncio.get_event_loop()

tasks?=?[]
for?i?in?range(100):
????task?=?loop.create_task(main())
????tasks.append(task)

t1?=?time.time()

loop.run_until_complete(main())

print("aiohttp版爬蟲耗時：",?time.time()?-?t1)

aiohttp版爬蟲耗時：?0.6133313179016113

我們可以看到使用這種方式實現(xiàn)，比單線程版本快90倍，比多線程還快。

結(jié)論

通過上面的程序?qū)Ρ龋覀兛梢钥吹剑瑢τ诙嗳蝿张老x來說，多線程、多進程、協(xié)程這幾種方式處理效率的排序為：aiohttp > 多線程 > 多進程。因此，對于簡單的爬蟲任務，如果想要提高效率，可以考慮使用協(xié)程。但是同時也要注意，這里只是簡單的示例，實際運用中，我們一般會用線程池、進程池、協(xié)程池去操作。

這就是問題的答案了嗎？

對于一個嚴謹?shù)某绦騿T來說，當然不是，實際上還有一些優(yōu)化的庫，例如grequests，可以從請求上解決并發(fā)問題。實際的處理過程中，肯定還有其他的優(yōu)化點，這里只是從最常見的幾種并發(fā)方式去比較而已，應付簡單爬蟲還是可以的，其他的方式歡迎大家在評論區(qū)留言探討。




推薦閱讀:
入門:?最全的零基礎(chǔ)學Python的問題? |?零基礎(chǔ)學了8個月的Python??|?實戰(zhàn)項目?|學Python就是這條捷徑

量化:?定投基金到底能賺多少錢？? |?我用Python對去年800只基金的數(shù)據(jù)分析??

干貨:爬取豆瓣短評，電影《后來的我們》?|?38年NBA最佳球員分析?|? ?從萬眾期待到口碑撲街！唐探3令人失望? |?笑看新倚天屠龍記?|?燈謎答題王?｜用Python做個海量小姐姐素描圖?｜碟中諜這么火，我用機器學習做個迷你推薦系統(tǒng)電影

趣味:彈球游戲? |?九宮格? |?漂亮的花?|?兩百行Python《天天酷跑》游戲!

AI:?會做詩的機器人?|?給圖片上色?|?預測收入?|?碟中諜這么火，我用機器學習做個迷你推薦系統(tǒng)電影

小工具:?Pdf轉(zhuǎn)Word，輕松搞定表格和水印！?|?一鍵把html網(wǎng)頁保存為pdf！|??再見PDF提取收費！?|?用90行代碼打造最強PDF轉(zhuǎn)換器，word、PPT、excel、markdown、html一鍵轉(zhuǎn)換?|?制作一款釘釘?shù)蛢r機票提示器！?｜60行代碼做了一個語音壁紙切換器天天看小姐姐！｜

年度爆款文案
1).臥槽！Pdf轉(zhuǎn)Word用Python輕松搞定！
2).學Python真香！我用100行代碼做了個網(wǎng)站，幫人PS旅行圖片，賺個雞腿吃
3).首播過億，火爆全網(wǎng)，我分析了《乘風破浪的姐姐》，發(fā)現(xiàn)了這些秘密?
4).80行代碼！用Python做一個哆來A夢分身?
5).你必須掌握的20個python代碼，短小精悍，用處無窮?
6).30個Python奇淫技巧集?
7).我總結(jié)的80頁《菜鳥學Python精選干貨.pdf》,都是干貨?
8).再見Python！我要學Go了！2500字深度分析！
9).發(fā)現(xiàn)一個舔狗福利！這個Python爬蟲神器太爽了，自動下載妹子圖片

點閱讀原文,看Python全套！

Python技巧：如何提高爬蟲速度？

簡單版本爬蟲

多線程版本爬蟲

多進程版本爬蟲

協(xié)程版本爬蟲

結(jié)論

點閱讀原文,看Python全套！