煎蛋網(wǎng)全站妹子圖爬蟲
↑?關(guān)注 + 星標(biāo)?,每天學(xué)Python新技能
后臺(tái)回復(fù)【大禮包】送你Python自學(xué)大禮包
春節(jié)到了,老板都回去過(guò)新年了,咱們打工人也忙了一年了,這幾天就抓點(diǎn)妹子圖,摸摸魚吧。
導(dǎo)入模塊
首先把用到的模塊貼進(jìn)來(lái)。
import?requests
from?bs4?import?BeautifulSoup
import?time
import?random
抓取
煎蛋網(wǎng)的抓取流程:從第 101 頁(yè)開始抓取,提取頁(yè)面上的女裝圖片 url,請(qǐng)求 url 后保存圖片,點(diǎn)擊下一頁(yè),重復(fù)循環(huán)...。
當(dāng)訪問(wèn)煎蛋網(wǎng)的 http://jandan.net/girl 頁(yè)面的時(shí)候,它是顯示的最后一頁(yè)。通過(guò)上面的分頁(yè)控件獲取下一頁(yè)的 url。

headers?=?{
????'User-Agent':?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/97.0.4692.99?Safari/537.36'
}
def?get_html(url):
????
????resp?=?requests.get(url?=?url,?headers?=?headers)
????soup?=?BeautifulSoup(resp.text)
????return?soup
def?get_next_page(soup):
????next_page?=?soup.find(class_='previous-comment-page')
????next_page_href?=?next_page.get('href')
????return?f'http:{next_page_href}'
可以看到每個(gè)圖片上都有[查看原圖] 的超鏈接,提取這個(gè) href 就是可以下載圖片了。

def?get_img_url(soup):
????a_list?=?soup.find_all(class_?=?'view_img_link')
????urls?=?[]
????for?a?in?a_list:
????????href?=?'http:'?+?a.get('href')
????????urls.append(href)
????return?urls
保存圖片就更簡(jiǎn)單了,request 請(qǐng)求后直接寫入文件。
def?save_image(urls):
????for?item?in?urls:
????????name?=?item.split('/')[-1]
????????resp?=?requests.get(url=item,?headers?=?headers)
????????with?open('D:/xxoo/'?+?name,?'wb')?as?f:
????????????f.write(resp.content)
????????time.sleep(random.randint(2,5))
最后來(lái)看一下抓取結(jié)果吧。

總結(jié)
這篇 request 爬蟲適合剛?cè)?python 和沒(méi)學(xué)過(guò) soup 模塊的小伙伴。春節(jié)來(lái)了,就不卷了,弄一個(gè)女裝爬蟲摸摸魚、養(yǎng)養(yǎng)眼。
推薦閱讀
您看此文用? ?
?分?
?
秒,轉(zhuǎn)發(fā)只需1秒哦
評(píng)論
圖片
表情

?
?分?
?
秒,轉(zhuǎn)發(fā)只需1秒哦