作為一只 Python 爬蟲(chóng):如何破解滑動(dòng)驗(yàn)證碼
這是「進(jìn)擊的Coder」的第 371?篇技術(shù)分享作者:劉志軍來(lái)源:Python之禪
“
閱讀本文大概需要 4 分鐘。
做爬蟲(chóng)總會(huì)遇到各種各樣的反爬限制,反爬的第一道防線(xiàn)往往在登錄就出現(xiàn)了,為了限制爬蟲(chóng)自動(dòng)登錄,各家使出了渾身解數(shù),所謂道高一尺魔高一丈。
今天分享個(gè)如何簡(jiǎn)單處理滑動(dòng)圖片的驗(yàn)證碼的案例。

類(lèi)似這種拖動(dòng)滑塊移動(dòng)到圖片中缺口位置與之重合的登錄驗(yàn)證在很多網(wǎng)站或者 APP 都比較常見(jiàn),因?yàn)樗鼘?duì)真實(shí)用戶(hù)體驗(yàn)友好,容易識(shí)別。同時(shí)也能攔截掉大部分初級(jí)爬蟲(chóng)。
作為一只 python 爬蟲(chóng),如何正確地自動(dòng)完成這個(gè)驗(yàn)證過(guò)程呢?
先來(lái)分析下,核心問(wèn)題其實(shí)是要怎么樣找到目標(biāo)缺口的位置,一旦知道了位置,我們就可以借用 selenium 等工具完成拖動(dòng)的操作。
我們可以借用 opencv 來(lái)解決這個(gè)問(wèn)題,主要步驟:

opencv 是什么?
OpenCV(Open Source Computer Vision Library)是開(kāi)放源代碼計(jì)算機(jī)視覺(jué)庫(kù),主要算法涉及圖像處理、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)相關(guān)方法,可用于開(kāi)發(fā)實(shí)時(shí)的圖像處理、計(jì)算機(jī)視覺(jué)以及模式識(shí)別程序。
直接安裝
pip?install?opencv-python
首先將圖片進(jìn)行高斯模糊處理,高斯模糊的主要作用是減少圖像的噪聲,用于預(yù)處理階段。
import?cv2?as?cv
image?=?cv.imread(image_path)
blurred?=?cv.GaussianBlur(image,?(5,?5),?0)
cv.imshow("blurred",?blurred)
處理后的效果

接著用 Canny 邊緣檢測(cè)到得到一個(gè)包含“窄邊界”的二值圖像。所謂二值圖像就是黑白圖,只有黑色和白色。
canny?=?cv.Canny(blurred,?200,?400)
cv.imshow("canny",?canny)

輪廓檢測(cè)
contours,?hierarchy?=?cv.findContours(canny,?cv.RETR_CCOMP,?cv.CHAIN_APPROX_SIMPLE)
for?i,?contour?in?enumerate(contours):??#?所有輪廓
????x,?y,?w,?h?=?cv.boundingRect(contour)??#?外接矩形
????cv.rectangle(image,?(x,?y),?(x?+?w,?y?+?h),?(0,?0,?255),?2)
cv.imshow('image',?image)
找出所有的輪廓,并用紅色線(xiàn)框?qū)⑵淅L制標(biāo)識(shí)出來(lái)了,看出來(lái)大大小小有幾十個(gè)輪廓

剩下的問(wèn)題就好辦了,我們只需要對(duì)輪廓的面積或者周長(zhǎng)范圍做限制,就能過(guò)濾出目標(biāo)輪廓的位置, 前提是我們對(duì)目標(biāo)位置的輪廓大小是預(yù)先確定的。
for?i,?contour?in?enumerate(contours):??#?所有輪廓
????if?6000?<?cv.contourArea(contour)?<=?8000?and?300?<?cv.arcLength(contour,?True)?<?500:
????????x,?y,?w,?h?=?cv.boundingRect(contour)??#?外接矩形
????????print(x,?y,?w,?h)
????????cv.rectangle(image,?(x,?y),?(x?+?w,?y?+?h),?(0,?0,?255),?2)
????????cv.imshow('image',?image)
????????#?找目標(biāo)缺口,第一個(gè)可能是滑塊
????????if?x?<=?200:
????????????continue
????????return?x?+?int(w?/?2),?675
輪廓的面積大概是 6000 到 8000 之間,周長(zhǎng)在 300 到 500 之間, 最后用外接矩形獲取該輪廓圖的坐標(biāo)位置和寬高大小。

如上就找到了目標(biāo)位置,剩下的工作就是將滑塊移動(dòng)到指定位置即可。

End
「進(jìn)擊的Coder」專(zhuān)屬學(xué)習(xí)群已正式成立,搜索「CQCcqc4」添加崔慶才的個(gè)人微信或者掃描下方二維碼拉您入群交流學(xué)習(xí)。
及時(shí)收看更多好文
↓↓↓
點(diǎn)個(gè)在看你最好看
