<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Python爬蟲|抖音熱搜定時爬取,又一個摸魚神器

          共 3247字,需瀏覽 7分鐘

           ·

          2022-03-23 10:56

          今天我們來爬取一下抖音熱搜榜,感興趣的小伙伴可以自己動手嘗試一下哦。

          抖音熱搜榜

          鏈接:https://tophub.today/n/K7GdaMgdQy整個熱榜共50條數(shù)據(jù),本次爬取的內(nèi)容:排名、熱度、標(biāo)題、鏈接。

          requests 爬取

          requests 是一種非常簡單的方法,由于該頁面沒有反爬措施,所以直接get 請求頁面即可。

          import requests
          import pandas as pd

          headers = {
              'User-Agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
          }
          url = 'https://tophub.today/n/K7GdaMgdQy'
          page_text = requests.get(url=url, headers=headers).text
          page_text

          可以看到,只需要幾行代碼,數(shù)據(jù)就很輕松地獲取到了。

          selenium 爬取

          selenium設(shè)置為無頭瀏覽器,打開指定url獲取頁面數(shù)據(jù)。

          from selenium import webdriver

          option = webdriver.ChromeOptions()
          option.add_argument('--headless')

          driver = webdriver.Chrome(options=option)

          url = 'https://tophub.today/n/K7GdaMgdQy'
          driver.get(url)

          page_text = driver.page_source

          兩種爬取方法都能夠成功獲取到數(shù)據(jù),但requests相對簡潔,整個代碼運行速度也更快,如果頁面數(shù)據(jù)不是動態(tài)加載的話,用requests相對方便。

          數(shù)據(jù)解析

          現(xiàn)在用lxml庫解析我們爬取的數(shù)據(jù),并保存到excel中。

          tree = etree.HTML(page_text)

          tr_list = tree.xpath(
              '//*[@id="page"]/div[2]/div[2]/div[1]/div[2]/div/div[1]/table/tbody/tr')

          df = pd.DataFrame(columns=['排名''熱度''標(biāo)題''鏈接'])
          for index, tr in enumerate(tr_list):
              hot = tr.xpath('./td[3]/text()')[0]
              title = tr.xpath('./td[2]/a/text()')[0]
              article_url = tr.xpath('./td[2]/a/@href')[0]
              df = df.append({
                  '排名': index + 1,
                  '熱度': hot,
                  '標(biāo)題': title,
                  '鏈接': article_url}, ignore_index=True)
          df['鏈接'] = 'https://tophub.today' + df['鏈接']
          df

          運行結(jié)果

          設(shè)置定時運行

          至此,爬取代碼已經(jīng)完成,想要實現(xiàn)每小時自動運行代碼,可以使用任務(wù)計劃程序

          打開任務(wù)計劃程序,【創(chuàng)建任務(wù)】

          輸入名稱,名稱隨便起就好。

          選擇【觸發(fā)器】>>【新建】>>【設(shè)置觸發(fā)時間】

          選擇【操作】>>【新建】>>【選擇程序】

          最后確認即可。到時間就會自動運行,或者右鍵任務(wù)手動運行。



          有興趣的同學(xué)可以火速加入我們的星球
          3周零基礎(chǔ)入門提供10節(jié)課程
          全年12節(jié)趣味實戰(zhàn)項目含源碼,
          每月獎勵優(yōu)秀的Top3同學(xué)送書
          專業(yè)的答疑群,大廠的老師保姆式的教學(xué)

          如果不滿意,三天內(nèi)隨意退款!一年88,現(xiàn)在優(yōu)惠16元


          掃碼加入,3周零基礎(chǔ)入門




          推薦閱讀:

          入門: 最全的零基礎(chǔ)學(xué)Python的問題  | 零基礎(chǔ)學(xué)了8個月的Python  | 實戰(zhàn)項目 |學(xué)Python就是這條捷徑


          干貨:爬取豆瓣短評,電影《后來的我們》 | 38年NBA最佳球員分析 |   從萬眾期待到口碑撲街!唐探3令人失望  | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個海量小姐姐素描圖 |碟中諜這么火,我用機器學(xué)習(xí)做個迷你推薦系統(tǒng)電影


          趣味:彈球游戲  | 九宮格  | 漂亮的花 | 兩百行Python《天天酷跑》游戲!


          AI: 會做詩的機器人 | 給圖片上色 | 預(yù)測收入 | 碟中諜這么火,我用機器學(xué)習(xí)做個迷你推薦系統(tǒng)電影


          小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水印! | 一鍵把html網(wǎng)頁保存為pdf!|  再見PDF提取收費! | 用90行代碼打造最強PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r機票提示器! |60行代碼做了一個語音壁紙切換器天天看小姐姐!


          年度爆款文案

          點閱讀原文,看B站22個原創(chuàng)視頻!

          瀏覽 168
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄色电影小视频 | 青娱乐精 | 日韩成人一区二区 | 婷婷射| 无码免费毛片一区二区三区古代 |