<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          python爬蟲(chóng)今日熱榜數(shù)據(jù)到txt文件的源碼

          共 2063字,需瀏覽 5分鐘

           ·

          2021-02-24 10:49

          今日熱榜:https://tophub.today/爬取數(shù)據(jù)及保存格式:爬取后保存為.txt文件

          今日熱榜:https://tophub.today/

          爬取數(shù)據(jù)及保存格式:

          爬取后保存為.txt文件:

          部分內(nèi)容:


          源碼及注釋?zhuān)?/p>

          1. import?requests

          2. from?bs4?import?BeautifulSoup

          3. ?

          4. def?download_page(url):

          5. headers?=?{"User-Agent":?"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

          6. try:

          7. r?=?requests.get(url,timeout?=?30,headers=headers)

          8. return?r.text

          9. except:

          10. return?"please inspect your url or setup"

          11. ?

          12. ?

          13. def?get_content(html,tag):

          14. output?=?""" 排名:{}\n 標(biāo)題:{} \n 熱度:{}\n 鏈接:{}\n ------------\n"""

          15. output2?=?"""平臺(tái):{} 榜單類(lèi)型:{} 最近更新:{}\n------------\n"""

          16. num=[]

          17. title=[]

          18. hot=[]

          19. href=[]

          20. soup?=?BeautifulSoup(html,?'html.parser')

          21. con?=?soup.find('div',attrs={'class':'bc-cc'})

          22. con_list?=?con.find_all('div',?class_="cc-cd")

          23. for?i?in?con_list:

          24. author?=?i.find('div',?class_='cc-cd-lb').get_text()?# 獲取平臺(tái)名字

          25. time?=?i.find('div',?class_='i-h').get_text()?# 獲取最近更新

          26. link?=?i.find('div',?class_='cc-cd-cb-l').find_all('a')?# 獲取所有鏈接

          27. gender?=?i.find('span',?class_='cc-cd-sb-st').get_text()?# 獲取類(lèi)型

          28. save_txt(tag,output2.format(author,?gender,time))

          29. for?k?in?link:

          30. href.append(k['href'])

          31. num.append(k.find('span',?class_='s').get_text())

          32. title.append(str(k.find('span',?class_='t').get_text()))

          33. hot.append(str(k.find('span',?class_='e').get_text()))

          34. for?h?in?range(len(num)):

          35. save_txt(tag,output.format(num[h],?title[h],?hot[h],?href[h]))

          36. ?

          37. ?

          38. def?save_txt(tag,*args):

          39. for?i?in?args:

          40. with?open(tag+'.txt',?'a',?encoding='utf-8')?as?f:

          41. f.write(i)

          42. ?

          43. ?

          44. def?main():

          45. # 綜合 科技 娛樂(lè) 社區(qū) 購(gòu)物 財(cái)經(jīng)

          46. page=['news','tech','ent','community','shopping','finance']

          47. for?tag?in?page:

          48. url?=?'https://tophub.today/c/{}'.format(tag)

          49. html?=?download_page(url)

          50. get_content(html,tag)

          51. ?

          52. if?__name__?==?'__main__':

          53. main()

          到此這篇關(guān)于python爬蟲(chóng)今日熱榜數(shù)據(jù)到txt文件的源碼的文章就介紹到這了!

          掃下方二維碼加老師微信

          或是搜索老師微信號(hào):XTUOL1988【切記備注學(xué)習(xí)Python】

          領(lǐng)取Python web開(kāi)發(fā),Python爬蟲(chóng),Python數(shù)據(jù)分析,人工智能等學(xué)習(xí)教程。帶你從零基礎(chǔ)系統(tǒng)性的學(xué)好Python!

          也可以加老師建的Python技術(shù)學(xué)習(xí)教程qq裙:245345507,二者加一個(gè)就可以!

          歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持


          萬(wàn)水千山總是情,點(diǎn)個(gè)【在看】行不行

          *聲明:本文于網(wǎng)絡(luò)整理,版權(quán)歸原作者所有,如來(lái)源信息有誤或侵犯權(quán)益,請(qǐng)聯(lián)系我們刪除或授權(quán)事宜

          瀏覽 41
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩无码av观看 日韩无码高清网站 | 夜夜被躁高潮A片免费看视频 | 大香蕉伊思人在线 | 国产青青操逼视频 | 麻豆三级片 |