特级精品在线,午夜鲁丝,强开小嫩苞一区二区三区在线,亚洲黄色视频网站在线,国产老女人操逼,尤物蜜芽成人网站,精品久久视频,五月天欧美性爱

前言

人生苦短，Python當(dāng)歌！

python爬蟲(chóng)

用python爬蟲(chóng)是一件非常使人愉快的事情，圖片、數(shù)據(jù)、小視頻一切皆可爬取，可是我們會(huì)經(jīng)常發(fā)現(xiàn)下載圖片的時(shí)候會(huì)非常慢，難以忍受。

我們都知道一個(gè)人做事必然沒(méi)有十個(gè)人做事快，那一個(gè)進(jìn)程速度慢，用十個(gè)進(jìn)程就好了呀。所以今天要跟大家分享一個(gè)多進(jìn)程爬蟲(chóng)的制作。（GIL的存在導(dǎo)致Python的多線程點(diǎn)有坑）

大家應(yīng)該知道在多進(jìn)程中，進(jìn)程之間是不能相互通信的，這就有一個(gè)問(wèn)題出現(xiàn)了！多個(gè)進(jìn)程怎么知道哪些需要爬取、哪些已經(jīng)被爬取了？

這就涉及到隊(duì)列了，如果需要更為穩(wěn)定健壯的隊(duì)列，應(yīng)該使用Celery這一類(lèi)的專(zhuān)用消息傳遞工具，不過(guò)為了簡(jiǎn)便，這次我們使用MongoDB。

構(gòu)建思路

好了！先來(lái)理一下思路：每個(gè)進(jìn)程需要知道哪些URL爬取過(guò)了、哪些URL需要爬??！我們來(lái)給每個(gè)URL設(shè)置兩種狀態(tài)：

outstanding:等待爬取的URL

complete:爬取完成的URL

那么失敗的URL的怎么辦呢？我們?cè)谠黾右环N狀態(tài)：

processing:正在進(jìn)行的URL

嗯！當(dāng)一個(gè)所有初始的URL狀態(tài)都為outstanding；當(dāng)開(kāi)始爬取的時(shí)候狀態(tài)改為：processing；爬取完成狀態(tài)改為：complete；失敗的URL重置狀態(tài)為：outstanding。為了能夠處理URL進(jìn)程被終止的情況、我們?cè)O(shè)置一個(gè)計(jì)時(shí)參數(shù)，當(dāng)超過(guò)這個(gè)值時(shí)；我們則將狀態(tài)重置為outstanding。

接下來(lái)看代碼部分

首先我們需要一個(gè)模塊：datetime(這個(gè)模塊比內(nèi)置time模塊要好使一點(diǎn))

下面是隊(duì)列的代碼：