<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          花木蘭到底好看不,我用Python爬取了幾萬條評論!

          共 2135字,需瀏覽 5分鐘

           ·

          2020-09-28 18:14

          對于神仙姐姐劉亦菲,估計(jì)很多碼農(nóng)都很喜歡,小編也非常喜歡她。從一開始的金粉世家里面的青澀的白秀珠,到天龍八部的神仙姐姐王語嫣,再到仙劍奇?zhèn)b傳里面的趙靈兒,后來挑戰(zhàn)四大名捕里面的無情,演技也是越來越好。


          現(xiàn)在她主演的《花木蘭》 也帶著一股巨浪向人們襲來,這部從拍攝之初就飽受爭議的電影,于是小編在貓眼上爬取上萬條的用戶評價(jià),對其進(jìn)行數(shù)據(jù)分析,今天就跟大家一起對其進(jìn)行探索。



          01.

          網(wǎng)站的分析


          這次我們的數(shù)據(jù)爬取從貓眼電影上獲取,目前有近14萬的電影短片數(shù)據(jù)。經(jīng)過仔細(xì)的分析,發(fā)現(xiàn)貓眼電影的URL有一定的規(guī)律,可以從中獲取貓眼的電影評論數(shù)據(jù),并且數(shù)據(jù)提供的格式j(luò)son格式,方便操作。這個(gè)接口如下:

          http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=?

          這個(gè)接口主要有兩個(gè)參數(shù):

          • movieid是指貓眼中每個(gè)電影獨(dú)有的id,如《花木蘭》的movieid=1210778;

          • startTime是指該頁面中第一條評論的時(shí)間,在這個(gè)頁面,每頁共有15條評論;


          然后打開每一條評論,進(jìn)行解析網(wǎng)頁,看一下里面的結(jié)構(gòu)


          發(fā)現(xiàn)關(guān)鍵的地方就是這個(gè)時(shí)間戳!


          02.

          動手寫代碼


          有了這個(gè)接口,就可以很快的對影評進(jìn)行爬取了。這里依賴于requests、json等庫進(jìn)行(相關(guān)的爬蟲知識,去年我已經(jīng)寫過50多篇,這里就不贅敘,翻翻歷史文章即可),獲取相關(guān)信息,相關(guān)核心代碼如下所示:

          上面的代碼主要是構(gòu)造代理user_agents, headers里面的參數(shù),把網(wǎng)頁的爬取請求偽裝成瀏覽器的請求。


          用requests發(fā)送網(wǎng)絡(luò)請求,然后獲取comments的數(shù)據(jù),然后進(jìn)行存儲到csv文件中去。CSV的讀寫存儲技巧可以看這篇(近20年五糧液股價(jià)分析|CSV文件實(shí)戰(zhàn)處理)


          經(jīng)過上面一頓猛如虎的操作,下面小編先帶大家看看爬的的原始數(shù)據(jù),主要包含了發(fā)表者的城市,評論內(nèi)容,性別,用戶,等級以及好評度等信息。



          03?

          數(shù)據(jù)分析

          有了原始數(shù)據(jù),剩下的就是對數(shù)據(jù)的清洗分析了,這里選用pyecharts庫進(jìn)行數(shù)據(jù)分析,因?yàn)檫@個(gè)使用起來非常方便,而且效果也不錯(cuò)。

          1).整體分析

          豆瓣上給這部電影的打分只有4.9,不知道為啥大家的評分這么低。我們先查看一下大家對花木蘭電影的總體評分吧。

          用pyecharts的Bar來直觀的看一下效果:

          02).好評和差評

          接著我們看一下花木蘭的好評和差評的對比情況:

          對df的數(shù)據(jù)進(jìn)行處理,提取出好評和差評的關(guān)鍵字進(jìn)行統(tǒng)計(jì)分析,然后進(jìn)行可視化的展示。

          由圖表可以看出,大家對花木蘭的評價(jià)分布還是比較均衡的,也有一點(diǎn)兩極分化的趨勢,給予高分和低分的的人都比較多。小編也電影院看了一下認(rèn)為兩級分化是有原因的:

          • 其迪斯尼的制作特效,以及劉亦菲的超高人氣,為其吸引了大量人氣,帶來了一波好評;

          • 但對于熟知中國古典故事花木蘭劇情的人來說,其劇情的設(shè)計(jì)是讓人很難接受的,也就導(dǎo)致了國人的諸多差評。


          2)詞云分析

          基于評價(jià)兩級分化的現(xiàn)象,小編決定探究一下兩級分化的原因究竟是什么,這里小編對整體評價(jià)、好評、壞評的詞云分別進(jìn)行繪制,繪制得到的結(jié)果如下圖所示。

          我們用jieba庫對整個(gè)的評論進(jìn)行關(guān)鍵字分析,看一下大家的花木蘭的點(diǎn)評到底是啥,我們統(tǒng)計(jì)出點(diǎn)評最多的100個(gè)關(guān)鍵字。

          由整體評價(jià)詞云可以看出,整體的評價(jià)還是偏向好的一方面,大大的 “好看” 兩字寫在了詞云中央;在差評詞云中, “劇情”、“中國” 等詞匯出現(xiàn)頻率很高,表明差評的人主觀感受是對劇情的不滿意,其不符合中國歷史故事,這一點(diǎn)是國人對這部電影的認(rèn)可度不高的關(guān)鍵因素。


          3)地域分析

          最后小編帶大家看看影評者的分布情況,大家可以找一找自己所在的城市是否也為這部票房做貢獻(xiàn)了。


          我們把上面采集到的數(shù)據(jù)集里面的每個(gè)評論的城市緯度拿出來,取前50個(gè)城市的名字,然后利用Pyecharts里面的geo庫進(jìn)行可視化展示。


          由分布圖可以看出,一線發(fā)達(dá)城市觀影人數(shù)是最多的,北上廣深顯得尤為突出,可見一線城市人民的消費(fèi)力卓越;從東西分布和南北分布來看,非常符合我國東強(qiáng)西弱,南強(qiáng)北弱的經(jīng)濟(jì)結(jié)構(gòu)。




          以上就是小編為大家?guī)淼摹痘咎m》的電影分析,通過分析,我們發(fā)現(xiàn)其制作效果雖然可觀,但是劇情方面難以讓國人普遍接受。歡迎大家在留言區(qū)點(diǎn)評,給個(gè)三連!說說你對花木蘭的看法是啥?


          限于篇幅上面的源碼沒有展開解讀,我們會在B站錄制視頻詳細(xì)解讀源碼的細(xì)節(jié)和注意點(diǎn),到時(shí)把源碼和數(shù)據(jù)都給大家,大家記得來B站找我們。

          https://space.bilibili.com/488689252



          由于微信平臺算法改版,公號內(nèi)容將不再以時(shí)間排序展示,如果大家想第一時(shí)間看到我們的推送,強(qiáng)烈建議星標(biāo)我們和給我們多點(diǎn)點(diǎn)【在看】。星標(biāo)具體步驟為:


          (1)點(diǎn)擊頁面最上方“小詹學(xué)Python”,進(jìn)入公眾號主頁。


          (2)點(diǎn)擊右上角的小點(diǎn)點(diǎn),在彈出頁面點(diǎn)擊“設(shè)為星標(biāo)”,就可以啦。


          感謝支持,比心。

          瀏覽 33
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大鸡巴免费 | 逼特逼网站在线观看 | 狼综合网 | 爱视频福利广场 | 韩国免费内射 |