<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          電影荒嗎?教你爬取豆瓣電影top250

          共 2977字,需瀏覽 6分鐘

           ·

          2020-12-29 18:59




          點擊上方藍字關(guān)注我們





          點擊上方“印象python”,選擇“星標(biāo)”公眾號
          重磅干貨,第一時間送達!

          爬蟲目標(biāo)

          爬取豆瓣電影top250,獲取的信息有電影名稱、簡介、導(dǎo)演、評分、觀看人數(shù)和電影語錄等信息。

          項目準(zhǔn)備

          軟件:Pycharm

          第三方庫:requests,parsel,pandas,lxml,os

          網(wǎng)站地址:https://movie.douban.com/top250?start=


          網(wǎng)站分析

          網(wǎng)站首頁如下:


          1.首先判斷其是動態(tài)加載還是靜態(tài)加載。


          打開瀏覽器設(shè)置,關(guān)閉javascript。刷新頁面沒有任何影響即可理解為靜態(tài)加載

          2.F12打開瀏覽器開發(fā)者模式,找到電影信息源碼所在位置。
          如圖一部電影的完整信息都存在于一個li標(biāo)簽之內(nèi)。所以我們想要獲取電影詳情首先就要獲取到li標(biāo)簽。可以發(fā)現(xiàn)該頁面25部電影信息所在的li標(biāo)簽都在一個class='grid_view'的ol標(biāo)簽之內(nèi)。所以我們可以通過此屬性獲取到25部電影所在的li。


          反爬分析

          為了防止在爬蟲過程中反爬而抓取不到數(shù)據(jù),我們一般只需加上user-agent和refer即可


          鏈接分析

          第一頁:https://movie.douban.com/top250?start=第二頁:https://movie.douban.com/top250?start=25&filter=第三頁:https://movie.douban.com/top250?start=50&filter=

          可以發(fā)現(xiàn),每頁的電影信息會隨著網(wǎng)站鏈接末尾數(shù)字變化而變化。


          代碼實現(xiàn)

          1.獲取網(wǎng)頁源碼信息


          2.源碼信息成功獲取到之后接下來就要通過我們上面分析來定位li標(biāo)簽的位置

          打印結(jié)果為25代表獲取到了25個li標(biāo)簽,也就是說在當(dāng)前頁面有25部電影。這和頁面展示的也是一模一樣的

          3.獲取電影詳情

          25部電影信息打印如下:

          可以看到已經(jīng)成功獲取到我們所要信息了。


          數(shù)據(jù)保存

          數(shù)據(jù)保存我們需要用到pandas,首先我們導(dǎo)入

          import pandas as pd

          現(xiàn)在第一頁的數(shù)據(jù)已經(jīng)成功保存到本地csv文件中了,接下來就是10頁的問題了,很簡單。只需加上一個循環(huán)即可。在此就不多贅述了。有興趣的小伙伴可參考源碼一探究竟。


          效果展示


          csv文件如下:


          圖片文件如下:


          想要學(xué)習(xí)或者對源碼有興趣的小伙伴掃碼回復(fù)'電影'即可



          掃描二維碼

          獲取更多精彩

          python學(xué)前班



          回復(fù)下方 「關(guān)鍵詞」,獲取優(yōu)質(zhì)資源


          回復(fù)關(guān)鍵詞 「linux」,即可獲取 185 頁 Linux 工具快速教程手冊和154頁的Linux筆記。


          回復(fù)關(guān)鍵詞 「Python進階」,即可獲取 106 頁 Python 進階文檔 PDF


          回復(fù)關(guān)鍵詞 「Python面試題」,即可獲取最新 100道 面試題 PDF


          回復(fù)關(guān)鍵詞 「python數(shù)據(jù)分析」,即可獲取47頁python數(shù)據(jù)分析與自然語言處理的 PDF


          回復(fù)關(guān)鍵詞 「python爬蟲」,滿滿五份PPT爬蟲教程和70多個案例


          回復(fù)關(guān)鍵詞 「Python最強基礎(chǔ)學(xué)習(xí)文檔」,即可獲取 168 頁 Python 最強基礎(chǔ)學(xué)習(xí)文檔 PDF,讓你快速入門Python

          推薦我的微信號

          來圍觀我的朋友圈,我的經(jīng)驗分享,技術(shù)更新,不定期送書,坑位有限,速速掃碼添加!
          備注:開發(fā)方向_昵稱_城市,另送你10本Python電子書。

          點個在看你最好看

          瀏覽 77
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天日天天干天天操 | 久久婷婷夜色精品国产冻传媒 | 成人AV高清无码在线观 | 一区二区三区四区无码 | 亚洲美女操B |