<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          充氣WaWa什么感覺(jué)?Python 告訴你!

          共 3774字,需瀏覽 8分鐘

           ·

          2020-09-21 12:32

          點(diǎn)擊“開(kāi)發(fā)者技術(shù)前線”,選擇“星標(biāo)?”

          在看|星標(biāo)|留言,? 真愛(ài)

          授權(quán)來(lái)自公眾號(hào):裸睡的豬


          一、需求背景

          在實(shí)際開(kāi)發(fā)過(guò)程中,在我們動(dòng)手開(kāi)發(fā)之前,都是由產(chǎn)品經(jīng)理為我們(測(cè)試、前端、后端、項(xiàng)目經(jīng)理等)先講解一下需求,我們了解了需求之后,才開(kāi)始一起來(lái)討論技術(shù)方案。

          我們自己實(shí)現(xiàn)一些小功能時(shí)同樣需要討論需求,也就是告訴別人我們?yōu)槭裁匆鲞@個(gè)東西?或者我們想利用這款產(chǎn)品解決什么問(wèn)題。

          我們常??吹揭恍┯嘘P(guān)充氣娃娃的表情包和圖片或新聞,但是這種東西很少會(huì)像一些小視頻一些相互交流,大家可能都是偷摸玩耍。所以豬哥相信其實(shí)大部分同學(xué)并沒(méi)有親身體驗(yàn)過(guò)充氣娃娃到底是什么感覺(jué)(包括豬哥),所以豬哥很好奇究竟是什么一種體驗(yàn)?真的如傳言中那樣爽嗎?

          二、功能描述

          基于很多人沒(méi)有體驗(yàn)過(guò)充氣娃娃是什么感覺(jué),但是又很好奇,所以希望通過(guò)爬蟲(chóng)+數(shù)據(jù)分析的方式直觀而真實(shí)的告訴大家(下圖為成品圖)。

          三、技術(shù)方案

          為了實(shí)現(xiàn)上面的需求以及功能,我們來(lái)討論下具體的技術(shù)實(shí)現(xiàn)方案:

          1. 分析某東評(píng)論數(shù)據(jù)請(qǐng)求

          2. 使用requests庫(kù)抓取某東的充氣娃娃評(píng)論

          3. 使用詞云做數(shù)據(jù)展示

          四、技術(shù)實(shí)現(xiàn)

          上篇文章中就給大家說(shuō)過(guò),今天我們以某東商品編號(hào)為:1263013576的商品為對(duì)象,進(jìn)行數(shù)據(jù)分析,我們來(lái)看看詳細(xì)的技術(shù)實(shí)現(xiàn)步驟吧!

          本教程只為學(xué)習(xí)交流,不得用于商用獲利,后果自負(fù)!
          如有侵權(quán)或者對(duì)任何公司或個(gè)人造成不利影響,請(qǐng)告知?jiǎng)h除

          1.分析并獲取評(píng)論接口的URL

          第一步:打開(kāi)某東的商品頁(yè),搜索你想研究的商品。

          第二步:我們?cè)陧?yè)面中鼠標(biāo)右鍵選擇檢查(或F12)調(diào)出瀏覽器的調(diào)試窗口。

          第三步:調(diào)出瀏覽器后點(diǎn)擊評(píng)論按鈕使其加載數(shù)據(jù),然后我們點(diǎn)擊network查看數(shù)據(jù)。

          第四步:查找加載評(píng)論數(shù)據(jù)的請(qǐng)求url,我們可以使用某條評(píng)論中的一段話,然后在調(diào)試窗口中搜索。


          經(jīng)過(guò)上面4步分析,我們就拿到了京東評(píng)論數(shù)據(jù)的接口:https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv4654&productId=1263013576&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

          productPageComments:看這個(gè)名字就知道是產(chǎn)品頁(yè)評(píng)論

          2.爬取評(píng)論數(shù)據(jù)

          拿到評(píng)論數(shù)據(jù)接口url之后,我們就可以開(kāi)始寫(xiě)代碼抓取數(shù)據(jù)了。一般我們會(huì)先嘗試抓取一條數(shù)據(jù),成功之后,我們?cè)偃シ治鋈绾螌?shí)現(xiàn)大量抓取。

          上一篇我們已經(jīng)講解了如何使用requests庫(kù)發(fā)起http/s請(qǐng)求,我們來(lái)看看代碼

          但是在打印的結(jié)果中數(shù)據(jù)卻是空?為何瀏覽器請(qǐng)求成功,而我們的代碼卻請(qǐng)求不到數(shù)據(jù)呢?難道我們遇到了反爬?這種情況下如何解決?

          大家在遇到這種情況時(shí),回到瀏覽器的調(diào)試窗口,查看下瀏覽器發(fā)起的請(qǐng)求頭,因?yàn)榭赡転g覽器請(qǐng)求時(shí)攜帶了什么請(qǐng)求頭參數(shù)而我們代碼中沒(méi)有。

          果然,我們?cè)跒g覽器頭中看到了有兩個(gè)請(qǐng)求頭RefererUser-Agent,那我們先把他們加到代碼的請(qǐng)求頭中,再試試!

          3.數(shù)據(jù)提取

          我們對(duì)爬取的數(shù)據(jù)分析發(fā)現(xiàn),此數(shù)據(jù)為jsonp跨域請(qǐng)求返回的json結(jié)果,所以我們只要把前面的fetchJSON_comment98vv4646(和最后的)去掉就拿到j(luò)son數(shù)據(jù)了。

          將json數(shù)據(jù)復(fù)制到j(luò)son格式化工具中或者在Chrome瀏覽器調(diào)試窗口點(diǎn)擊Preview也可以看到,json數(shù)據(jù)中有一個(gè)key為comments的值便是我們想要的評(píng)論數(shù)據(jù)。

          我們?cè)賹?duì)comments值進(jìn)行分析發(fā)現(xiàn)是一個(gè)有多條數(shù)據(jù)的列表,而列表里的每一項(xiàng)就是每個(gè)評(píng)論對(duì)象,包含了評(píng)論的內(nèi)容,時(shí)間,id,評(píng)價(jià)來(lái)源等等信息,而其中的content字段便是我們?cè)陧?yè)面看到的用戶評(píng)價(jià)內(nèi)容。

          那我們來(lái)用代碼將每個(gè)評(píng)價(jià)對(duì)象的content字段提取并打印出來(lái)

          4.數(shù)據(jù)保存

          數(shù)據(jù)提取后我們需要將他們保存起來(lái),一般保存數(shù)據(jù)的格式主要有:文件、數(shù)據(jù)庫(kù)、內(nèi)存這三大類。今天我們就將數(shù)據(jù)保存為txt文件格式,因?yàn)椴僮魑募鄬?duì)簡(jiǎn)單同時(shí)也能滿足我們的后續(xù)數(shù)據(jù)分析的需求。

          然后我們查看一下生成的文件內(nèi)容是否正確

          5.批量爬取

          再完成一頁(yè)數(shù)據(jù)爬取、提取、保存之后,我們來(lái)研究一下如何批量抓???

          做過(guò)web的同學(xué)可能知道,有一項(xiàng)功能是我們必須要做的,那便是分頁(yè)。何為分頁(yè)?為何要做分頁(yè)?

          我們?cè)跒g覽很多網(wǎng)頁(yè)的時(shí)候常??吹健跋乱豁?yè)”這樣的字眼,其實(shí)這就是使用了分頁(yè)技術(shù),因?yàn)橄蛴脩粽故緮?shù)據(jù)時(shí)不可能把所有的數(shù)據(jù)一次性展示,所以采用分頁(yè)技術(shù),一頁(yè)一頁(yè)的展示出來(lái)。

          讓我們?cè)倩氐阶铋_(kāi)始的加載評(píng)論數(shù)據(jù)的url:

          https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv4654&productId=1263013576&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

          我們可以看到鏈接里面有兩個(gè)參數(shù)page=0&pageSize=10,page表示當(dāng)前的頁(yè)數(shù),pageSize表示每頁(yè)多少條,那這兩個(gè)數(shù)據(jù)直接去數(shù)據(jù)庫(kù)limit數(shù)據(jù)。

          老司機(jī)一眼便可以看出這就是分頁(yè)的參數(shù),但是有同學(xué)會(huì)說(shuō):如果我是老司機(jī)還干嘛看你的文章?所以我教大家如何來(lái)找到這個(gè)分頁(yè)參數(shù)。

          回到某東的商品頁(yè),我們將評(píng)價(jià)頁(yè)面拉到最底下,發(fā)現(xiàn)有分頁(yè)的按鈕,然后我們?cè)谡{(diào)試窗口清空之前的請(qǐng)求記錄。

          清空之前的請(qǐng)求記錄之后,我們點(diǎn)擊上圖紅框分頁(yè)按鈕的數(shù)字2,代表這第二頁(yè),然后復(fù)制第一條評(píng)價(jià)去調(diào)試窗口搜索,最后找到請(qǐng)求鏈接。

          然后我們點(diǎn)擊Headers查看第二頁(yè)請(qǐng)求數(shù)據(jù)的url

          然后我們比較第一頁(yè)評(píng)價(jià)與第二頁(yè)評(píng)價(jià)的url有何區(qū)別

          這里也就驗(yàn)證了豬哥的猜想:page表示當(dāng)前的頁(yè)數(shù),pageSize表示每頁(yè)多少條。而且我們還能得出另一個(gè)結(jié)論:第一個(gè)page=0,第二頁(yè)page=1 然后依次往后。有同學(xué)會(huì)問(wèn):為什么第一頁(yè)不是1,而是0,因?yàn)樵跀?shù)據(jù)庫(kù)中一般的都是從0開(kāi)始計(jì)數(shù),編程行業(yè)很多數(shù)組列表都是從0開(kāi)始計(jì)數(shù)。

          好了,知道分頁(yè)規(guī)律之后,我們只要在每次請(qǐng)求時(shí)將page參數(shù)遞增不就可以批量抓取了嗎?我們來(lái)寫(xiě)代碼吧!

          簡(jiǎn)單講解一下做的改動(dòng):

          1. 對(duì)spider_comment方法增加入?yún)?strong>page:

            頁(yè)數(shù),然后在url中增加占位符,這樣就可以動(dòng)態(tài)修改url,爬取指定的頁(yè)數(shù)。

          2. 增加一個(gè)batch_spider_comment方法,循環(huán)調(diào)用spider_comment方法,暫定爬取100頁(yè)。

          3. batch_spider_comment方法的for循環(huán)中設(shè)置了一個(gè)隨機(jī)的休眠時(shí)間,意在模擬用戶瀏覽,防止因?yàn)榕廊√l繁被封ip。

          爬取完成之后檢查成果

          6.數(shù)據(jù)清洗

          數(shù)據(jù)成功保存之后我們需要對(duì)數(shù)據(jù)進(jìn)行分詞清洗,對(duì)于分詞我們使用著名的分詞庫(kù)jieba
          首先是安裝jieba庫(kù):

          pip3 install jieba


          當(dāng)然這里你還可以對(duì)一些介詞等無(wú)效詞進(jìn)行剔除,這樣可以避免無(wú)效數(shù)據(jù)。

          7.生成詞云

          生成詞云我們需要用到numpy、matplotlibwordcloud、Pillow這幾個(gè)庫(kù),大家先自行下載。matplotlib庫(kù)用于圖像處理,wordcloud庫(kù)用于生成詞云。

          注意:font_path是選擇字體的路徑,如果不設(shè)置默認(rèn)字體可能不支持中文,豬哥選擇的是Mac系統(tǒng)自帶的宋體字!

          最終結(jié)果:

          我們來(lái)看看全代碼

          五、總結(jié)

          因考慮新手的友好性,文章篇幅較長(zhǎng),詳細(xì)的介紹了從需求到技術(shù)分析、爬取數(shù)據(jù)、清洗數(shù)據(jù)、最后的分析數(shù)據(jù)。我們來(lái)總結(jié)一下本篇文章學(xué)到的東西吧:

          1. 如何分析并找出加載數(shù)據(jù)的url

          2. 如何使用requests庫(kù)的headers解決RefererUser-Agent反扒技術(shù)

          3. 如何找出分頁(yè)參數(shù)實(shí)現(xiàn)批量爬取

          4. 設(shè)置一個(gè)爬蟲(chóng)間隔時(shí)間防止被封ip

          5. 數(shù)據(jù)的提取與保存到文件

          6. 使用jieba庫(kù)對(duì)數(shù)據(jù)分詞清洗

          7. 使用wordcloud生成指定形狀的詞云


          這是一套完整的數(shù)據(jù)分析案例,希望大家能自己動(dòng)手嘗試,去探索更多有趣的案例,做個(gè)有趣的人~


          免費(fèi)的學(xué)習(xí)資料

          北京大學(xué)公開(kāi)課《數(shù)據(jù)結(jié)構(gòu)與算法Python版》,面向具有Python語(yǔ)言程序設(shè)計(jì)基礎(chǔ)的大學(xué)生和社會(huì)公眾,介紹常見(jiàn)的基本數(shù)據(jù)結(jié)構(gòu)以及相關(guān)經(jīng)典算法,強(qiáng)調(diào)問(wèn)題-數(shù)據(jù)-算法的抽象過(guò)程,關(guān)注數(shù)據(jù)結(jié)構(gòu)與算法的時(shí)間空間效率,培養(yǎng)學(xué)生編寫(xiě)出高效程序,從而解決實(shí)際問(wèn)題的綜合能力。

          這門(mén)課程在中國(guó)大學(xué)MOOC正在進(jìn)行第二次開(kāi)課,已進(jìn)行至第五周,心急的同學(xué)也可以直接看第一次開(kāi)課的完整版,變化不大。
          慕課:http://www.icourse163.org/course/0809PKU068-1206307812
          B站:https://www.bilibili.com/video/BV1h7411m7BK/

          ?溫馨提醒

          配套課件及參考教材小編已經(jīng)整理好了,需要的同學(xué)可以掃描下方的二維碼,后臺(tái)回復(fù)算法

          ?長(zhǎng)按上方二維碼
          回復(fù)「算法」即可獲取資料

          瀏覽 52
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久黄色免费网站 | 国产A片网址 | 国产精品视频导航 | 日韩人妻无码视频 | 99青娱乐在线视频观看 |