www.苗条身,材骚气逼逼出水,日逼视频免费看的网站,亚洲日韩欧美在线中文18,操美少妇母亲aV,69色综合,高潮喷水合集www,噜噜AV片,国产精品天天狠天天看

簡單爬蟲

學(xué)了那么久的python，肯定得爬點(diǎn)東西才能對得起它哈哈，向爬電影，小說網(wǎng)上也有很多例子~

不過我對對自己的要求比較低，哈哈哈愣是從茫茫頁面中找找到這么一個(gè)結(jié)構(gòu)簡單，清晰，而且你我都很熟悉的一個(gè)網(wǎng)頁~

當(dāng)當(dāng)當(dāng)當(dāng)當(dāng)~，爬取的頁面如下：

沒錯(cuò)，今天咱們就通過 python3 來簡單爬取百度首頁的熱搜榜信息~

百度地址：www.baidu.com/

思路

當(dāng)然，你除了要掌握一點(diǎn)點(diǎn) python 之外，還要知道網(wǎng)頁的結(jié)構(gòu)~

畢竟，爬蟲就是爬取我們網(wǎng)頁上的東西，然后再做根據(jù)你的設(shè)定去模擬用戶點(diǎn)擊按鈕，觸發(fā)網(wǎng)頁的一些事件，達(dá)成這個(gè)自動(dòng)化操作的一個(gè)過程。

那么，來解析下這個(gè)百度首頁吧~

如圖，通過瀏覽器的 F12 調(diào)出控制臺，然后定位到這個(gè) “中國正能量”

可以發(fā)現(xiàn)他們都在這個(gè) li 標(biāo)簽中，而且 css 的 class 都是 hotsearch-item odd 或者 hotsearch-item even ，那么我們找到這些元素后，通過 getText 方法就可以獲取標(biāo)簽中的文字信息，接著再對他們進(jìn)行個(gè)排序，打印出來即可，便完成了我們此次爬取的任務(wù)了~

代碼如下：

# -*- coding: utf-8 -*-# @Time    : 2020/10/9 15:44# @Author  : ryzeyang
import requestsfrom bs4 import BeautifulSoupfrom datetime import datetime
headers = {    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36 "}response = requests.get("https://www.baidu.com/", headers=headers)# 解析bsObj = BeautifulSoup(response.text)# 獲取 response header時(shí)間resDate = response.headers.get('Date')print(resDate)# 找到熱搜榜nameList = bsObj.findAll("li", {"class": {"hotsearch-item odd", "hotsearch-item even"}})# 添加熱搜榜的內(nèi)容tests = []for name in nameList:    tests.append(name.getText())# 排序tests.sort()for news in tests:    news = news[0:1] + " : " + news[1:]    print(news)

打印出的結(jié)果如下：

順利完成任務(wù)~


搜索下方加老師微信
老師微信號：XTUOL1988【切記備注：學(xué)習(xí)Python】
領(lǐng)取Python web開發(fā)，Python爬蟲，Python數(shù)據(jù)分析，人工智能等精品學(xué)習(xí)課程。帶你從零基礎(chǔ)系統(tǒng)性的學(xué)好Python！
*聲明：本文于網(wǎng)絡(luò)整理，版權(quán)歸原作者所有，如來源信息有誤或侵犯權(quán)益，請聯(lián)系我們刪除或授權(quán)

python爬蟲學(xué)習(xí)教程｜爬取百度首頁的熱搜榜

簡單爬蟲

思路

代碼如下：