<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          盤點一個selenium網(wǎng)絡(luò)爬蟲問題

          共 2560字,需瀏覽 6分鐘

           ·

          2024-06-29 09:00

          點擊上方“Python爬蟲與數(shù)據(jù)挖掘”,進行關(guān)注

          回復(fù)“書籍”即可獲贈Python從入門到進階共10本電子書

          紅豆生南國,春來發(fā)幾枝。

          大家好,我是Python進階者。

          一、前言

          前幾天在Python最強王者交流群【G.】問了一個Python網(wǎng)絡(luò)爬蟲的問題,問題如下:各位大佬好,我這遇到一個問題,用selenium爬網(wǎng)頁的時候,切換頁面后網(wǎng)頁有時會出現(xiàn)10條數(shù)據(jù),有時會出現(xiàn)6條數(shù)據(jù),出現(xiàn)6條數(shù)據(jù)時顯示的數(shù)據(jù)都是已經(jīng)爬取過的數(shù)據(jù),該怎么解決呢?

          這里【鄭煜哲·Xiaopang】問到:切換頁面指的是?switch window?還是get?

          粉絲回答:從1切換到2,應(yīng)該是get。

          【鄭煜哲·Xiaopang】:代碼看看,你是不是漏參數(shù)了

          二、實現(xiàn)過程

          這里【瑜亮老師】給了個思路如下:這個網(wǎng)站為啥要用selenium?requests不香么?

          【G.】:因為不光要爬編號和名稱,還要點進去把全文下載下來

          【鄭煜哲·Xiaopang??】:我掃了一眼,還有iframe。盲猜是邏輯有bug,臥槽,怎么寫的這么復(fù)雜。我懷疑是這樣的,第一頁的bar是這種,然后第二頁的bar就多了兩個元素,震驚了。

          【G.】:初學(xué)者

          【瑜亮老師??】:其實也不用selenium,這個id在搜索結(jié)果頁面就有,翻頁用。

          【鄭煜哲·Xiaopang】:嗯,可以不用的,直接用pageno=參數(shù)就行了。sel適合入門。

          【G.】:哦哦那我試試requests

          【鄭煜哲·Xiaopang】:同目測大概率你pagebar的處理邏輯有問題

          【G.】:不太清楚哎,那兒的處理邏輯感覺沒啥問題。這個網(wǎng)頁本身我自己在手動點的時候有時候也會出現(xiàn)這種情況

          【瑜亮老師】:@G.?使用requests3步請求就可以下載pdf 1.請求搜索結(jié)果頁,用pageNo參數(shù)獲取翻頁,正則拿到頁面所有pid 2.用pid請求gbDetailed頁面,正則拿到pdf下載地址file_path,截取后獲得file_name 3.拼接pdf_url,請求后with open保存成pdf。

          我試過了,非常順暢。唯一需要注意的就是,某些gbDetailed頁面中并沒有pdf,需要加個if判斷一下。

          【G.】:@德善堂小兒推拿-瑜亮老師?有些標準第三步保存成pdf點那個在線預(yù)覽之后有驗證碼怎么辦呢

          【瑜亮老師】:requests也不用點啊

          【G.】:那怎么拿到pdf的下載地址啊

          【瑜亮老師】:你看頁面源碼中是否有

          【G.】:哦哦好

          順利地解決了粉絲的問題。

          如果你也有類似這種Python相關(guān)的小問題,歡迎隨時來交流群學(xué)習(xí)交流哦,有問必答!

          三、總結(jié)

          大家好,我是Python進階者。這篇文章主要盤點了一個Python網(wǎng)絡(luò)爬蟲的問題,文中針對該問題,給出了具體的解析和代碼實現(xiàn),幫助粉絲順利解決了問題。

          最后感謝粉絲【G.】提出的問題,感謝【鄭煜哲·Xiaopang】、【瑜亮老師】給出的思路,感謝【莫生氣】等人參與學(xué)習(xí)交流。

          【提問補充】溫馨提示,大家在群里提問的時候。可以注意下面幾點:如果涉及到大文件數(shù)據(jù),可以數(shù)據(jù)脫敏后,發(fā)點demo數(shù)據(jù)來(小文件的意思),然后貼點代碼(可以復(fù)制的那種),記得發(fā)報錯截圖(截全)。代碼不多的話,直接發(fā)代碼文字即可,代碼超過50行這樣的話,發(fā)個.py文件就行。

          大家在學(xué)習(xí)過程中如果有遇到問題,歡迎隨時聯(lián)系我解決(我的微信:pdcfighting1),應(yīng)粉絲要求,我創(chuàng)建了一些高質(zhì)量的Python付費學(xué)習(xí)交流群和付費接單群,歡迎大家加入我的Python學(xué)習(xí)交流群和接單群!

          小伙伴們,快快用實踐一下吧!如果在學(xué)習(xí)過程中,有遇到任何問題,歡迎加我好友,我拉你進Python學(xué)習(xí)交流群共同探討學(xué)習(xí)。

          ------------------- End -------------------

          往期精彩文章推薦:

          歡迎大家點贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持

          想加入Python學(xué)習(xí)群請在后臺回復(fù)【入群

          萬水千山總是情,點個【在看】行不行

          /今日留言主題/

          隨便說一兩句吧~~

          瀏覽 80
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美 日韩777 | 国内精品在线观看小视频 | 成人AV一区二区三区 | 韩国三级中文字幕HD久久无码 | 人人超碰97 |