盤點(diǎn)一個Python網(wǎng)絡(luò)爬蟲+正則表達(dá)式處理案例
回復(fù)“書籍”即可獲贈Python從入門到進(jìn)階共10本電子書
大家好,我是Python進(jìn)階者。
一、前言
前幾天在Python白銀交流群【鑫】問了一個Python網(wǎng)絡(luò)爬蟲的問題,提問截圖如下:

下面是他的代碼:
import requests
import re
url = "https://movie.douban.com/top250"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
}
resp = requests.get(url, headers=headers)
resp.encoding = "utf-8"
pageSource = resp.text
print(pageSource) #re.S可以讓正則的。匹配換行符
obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</sp'
r'an>.*? <p class="">.*?導(dǎo)演:(?P<dao>.*?) <br>'
r'(?P<year>.*?) ', re.S)
result = obj.finditer(pageSource)
for item in result:
print(item.group("name"))
print(item.group("dao"))
print(item.group("year"))
二、實(shí)現(xiàn)過程
這里【瑜亮老師】指出問題,如下所示:

事實(shí)上還是那個正則表達(dá)式寫的有問題。

跟著視頻來敲,有時候視頻太老了,或者對應(yīng)的網(wǎng)頁結(jié)構(gòu)改版了,導(dǎo)致原有的代碼并不能夠適配,導(dǎo)致出錯。

修改之后可以得到正確的結(jié)果了。
三、總結(jié)
大家好,我是Python進(jìn)階者。這篇文章主要盤點(diǎn)了一個Python網(wǎng)絡(luò)爬蟲+正則表達(dá)式處理的問題,文中針對該問題,給出了具體的解析和代碼實(shí)現(xiàn),幫助粉絲順利解決了問題。
最后感謝粉絲【鑫】提問,感謝【瑜亮老師】給出的思路和代碼解析,感謝【dcpeng】、【???】等人參與學(xué)習(xí)交流。
大家在學(xué)習(xí)過程中如果有遇到問題,歡迎隨時聯(lián)系我解決(我的微信:pdcfighting),應(yīng)粉絲要求,我創(chuàng)建了一些高質(zhì)量的Python付費(fèi)學(xué)習(xí)交流群,歡迎大家加入我的Python學(xué)習(xí)交流群!

小伙伴們,快快用實(shí)踐一下吧!如果在學(xué)習(xí)過程中,有遇到任何問題,歡迎加我好友,我拉你進(jìn)Python學(xué)習(xí)交流群共同探討學(xué)習(xí)。
------------------- End -------------------
往期精彩文章推薦:

歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持
想加入Python學(xué)習(xí)群請?jiān)诤笈_回復(fù)【入群】
萬水千山總是情,點(diǎn)個【在看】行不行
/今日留言主題/
隨便說一兩句吧~~
