python爬蟲學(xué)習(xí)教程|爬取百度首頁的熱搜榜

簡單爬蟲
學(xué)了那么久的python,肯定得爬點(diǎn)東西才能對得起它 哈哈,向爬電影,小說網(wǎng)上也有很多例子~
不過我對對自己的要求比較低,哈哈哈 愣是從茫茫頁面中找找到這么一個(gè)結(jié)構(gòu)簡單,清晰,而且你我都很熟悉的一個(gè)網(wǎng)頁~
當(dāng)當(dāng)當(dāng)當(dāng)當(dāng)~,爬取的頁面如下:

沒錯(cuò),今天咱們就通過 python3 來簡單爬取百度首頁的熱搜榜信息~
百度地址:www.baidu.com/
思路
當(dāng)然,你除了要掌握一點(diǎn)點(diǎn) python 之外,還要知道網(wǎng)頁的結(jié)構(gòu)~
畢竟,爬蟲就是爬取我們網(wǎng)頁上的東西,然后再做根據(jù)你的設(shè)定去模擬用戶點(diǎn)擊按鈕,觸發(fā)網(wǎng)頁的一些事件,達(dá)成這個(gè)自動(dòng)化操作的一個(gè)過程。
那么,來解析下這個(gè)百度首頁吧~

如圖,通過瀏覽器的 F12 調(diào)出控制臺,然后定位到這個(gè) “中國正能量”
可以發(fā)現(xiàn)他們都在這個(gè) li 標(biāo)簽中,而且 css 的 class 都是 hotsearch-item odd 或者 hotsearch-item even ,那么我們找到這些元素后,通過 getText 方法就可以獲取 標(biāo)簽中的文字信息,接著再對他們進(jìn)行個(gè)排序,打印出來即可,便完成了我們此次爬取的任務(wù)了~
代碼如下:
# -*- coding: utf-8 -*-# @Time : 2020/10/9 15:44# @Author : ryzeyangimport requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeheaders = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36 "}response = requests.get("https://www.baidu.com/", headers=headers)# 解析bsObj = BeautifulSoup(response.text)# 獲取 response header時(shí)間resDate = response.headers.get('Date')print(resDate)# 找到熱搜榜nameList = bsObj.findAll("li", {"class": {"hotsearch-item odd", "hotsearch-item even"}})# 添加熱搜榜的內(nèi)容tests = []for name in nameList:tests.append(name.getText())# 排序tests.sort()for news in tests:news = news[0:1] + " : " + news[1:]print(news)
打印出的結(jié)果如下:

順利完成任務(wù)~
搜索下方加老師微信
老師微信號:XTUOL1988【切記備注:學(xué)習(xí)Python】
領(lǐng)取Python web開發(fā),Python爬蟲,Python數(shù)據(jù)分析,人工智能等精品學(xué)習(xí)課程。帶你從零基礎(chǔ)系統(tǒng)性的學(xué)好Python!
*聲明:本文于網(wǎng)絡(luò)整理,版權(quán)歸原作者所有,如來源信息有誤或侵犯權(quán)益,請聯(lián)系我們刪除或授權(quán)



