Python爬蟲|抖音熱搜定時爬取,又一個摸魚神器

今天我們來爬取一下抖音熱搜榜,感興趣的小伙伴可以自己動手嘗試一下哦。
抖音熱搜榜
鏈接:https://tophub.today/n/K7GdaMgdQy
整個熱榜共50條數(shù)據(jù),本次爬取的內(nèi)容:排名、熱度、標(biāo)題、鏈接。
requests 爬取
requests 是一種非常簡單的方法,由于該頁面沒有反爬措施,所以直接get 請求頁面即可。
import requests
import pandas as pd
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
}
url = 'https://tophub.today/n/K7GdaMgdQy'
page_text = requests.get(url=url, headers=headers).text
page_text
可以看到,只需要幾行代碼,數(shù)據(jù)就很輕松地獲取到了。
selenium 爬取
將selenium設(shè)置為無頭瀏覽器,打開指定url獲取頁面數(shù)據(jù)。
from selenium import webdriver
option = webdriver.ChromeOptions()
option.add_argument('--headless')
driver = webdriver.Chrome(options=option)
url = 'https://tophub.today/n/K7GdaMgdQy'
driver.get(url)
page_text = driver.page_source
兩種爬取方法都能夠成功獲取到數(shù)據(jù),但requests相對簡潔,整個代碼運行速度也更快,如果頁面數(shù)據(jù)不是動態(tài)加載的話,用requests相對方便。
數(shù)據(jù)解析
現(xiàn)在用lxml庫解析我們爬取的數(shù)據(jù),并保存到excel中。
tree = etree.HTML(page_text)
tr_list = tree.xpath(
'//*[@id="page"]/div[2]/div[2]/div[1]/div[2]/div/div[1]/table/tbody/tr')
df = pd.DataFrame(columns=['排名', '熱度', '標(biāo)題', '鏈接'])
for index, tr in enumerate(tr_list):
hot = tr.xpath('./td[3]/text()')[0]
title = tr.xpath('./td[2]/a/text()')[0]
article_url = tr.xpath('./td[2]/a/@href')[0]
df = df.append({
'排名': index + 1,
'熱度': hot,
'標(biāo)題': title,
'鏈接': article_url}, ignore_index=True)
df['鏈接'] = 'https://tophub.today' + df['鏈接']
df
運行結(jié)果
設(shè)置定時運行
至此,爬取代碼已經(jīng)完成,想要實現(xiàn)每小時自動運行代碼,可以使用任務(wù)計劃程序。
打開任務(wù)計劃程序,【創(chuàng)建任務(wù)】

輸入名稱,名稱隨便起就好。

選擇【觸發(fā)器】>>【新建】>>【設(shè)置觸發(fā)時間】

選擇【操作】>>【新建】>>【選擇程序】

最后確認即可。到時間就會自動運行,或者右鍵任務(wù)手動運行。
掃碼加入,3周零基礎(chǔ)入門
推薦閱讀:
入門: 最全的零基礎(chǔ)學(xué)Python的問題 | 零基礎(chǔ)學(xué)了8個月的Python | 實戰(zhàn)項目 |學(xué)Python就是這條捷徑
干貨:爬取豆瓣短評,電影《后來的我們》 | 38年NBA最佳球員分析 | 從萬眾期待到口碑撲街!唐探3令人失望 | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個海量小姐姐素描圖 |碟中諜這么火,我用機器學(xué)習(xí)做個迷你推薦系統(tǒng)電影
趣味:彈球游戲 | 九宮格 | 漂亮的花 | 兩百行Python《天天酷跑》游戲!
AI: 會做詩的機器人 | 給圖片上色 | 預(yù)測收入 | 碟中諜這么火,我用機器學(xué)習(xí)做個迷你推薦系統(tǒng)電影
小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水印! | 一鍵把html網(wǎng)頁保存為pdf!| 再見PDF提取收費! | 用90行代碼打造最強PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r機票提示器! |60行代碼做了一個語音壁紙切換器天天看小姐姐!|
年度爆款文案
點閱讀原文,看B站22個原創(chuàng)視頻!

