分析了 40000+ 條內(nèi)衣數(shù)據(jù),我終于發(fā)現(xiàn)了罩杯的秘密...
大家好,我是寶器
這篇內(nèi)容是想教大家如何優(yōu)雅地爬取天貓?jiān)u論相關(guān)數(shù)據(jù),以及怎么樣去做些不一樣的有趣的分析,奈何一直沒(méi)想好合適的主題。
該用什么樣的主題,才能把粉絲吸引進(jìn)來(lái)呢?正想著,旁邊同事的目光被從工位走過(guò)的一位妹子所吸引,我順著看去...

靈光一閃,便有了主題——咱們這次就老老實(shí)實(shí)分析下內(nèi)衣的數(shù)據(jù)吧!
數(shù)據(jù)爬取
很久前寫(xiě)過(guò)用selenium和requests爬取評(píng)論的教程,但時(shí)間久遠(yuǎn),后臺(tái)有不少小伙伴反饋已經(jīng)被ban了,在網(wǎng)上其他地方也沒(méi)找到合適的代碼。所以,今天小z特來(lái)更新一波。
天貓?jiān)u論反爬幾經(jīng)更迭,從最開(kāi)始的什么都不用偽裝,到后面要加上cookies才能訪問(wèn),再到現(xiàn)在的headers構(gòu)造,一定一定一定要加referer參數(shù)才能返回想要的數(shù)據(jù)結(jié)果。
具體怎么爬取呢?非常簡(jiǎn)單,只需3步:
第一步,定位目標(biāo)網(wǎng)址
打開(kāi)具體商品鏈接,點(diǎn)擊累計(jì)評(píng)價(jià)頁(yè)面,同時(shí)F12呼出開(kāi)發(fā)調(diào)試工具:

評(píng)論翻頁(yè),動(dòng)態(tài)加載找到評(píng)論數(shù)據(jù)所在的網(wǎng)址:

別被這巨長(zhǎng)的一段網(wǎng)址唬住,真正有用的網(wǎng)址小z已經(jīng)用紅框標(biāo)出來(lái)了,通過(guò)修改currentPage參數(shù),輕松實(shí)現(xiàn)評(píng)論翻頁(yè)。
第二步,實(shí)現(xiàn)單頁(yè)爬取,為循環(huán)全量爬取打好基礎(chǔ)
要順利獲取評(píng)論數(shù)據(jù),需要構(gòu)造好headers和cookies,經(jīng)過(guò)反復(fù)測(cè)試,headers中的User-Agent,referer,還有cookies,3個(gè)核心參數(shù)缺一不可,根據(jù)自己的實(shí)際情況來(lái)構(gòu)造即可:

評(píng)論數(shù)據(jù)中,我們感興趣的主要是4個(gè)字段:評(píng)論內(nèi)容,評(píng)論時(shí)間,SKU(款式尺碼)和用戶(hù)昵稱(chēng)。

數(shù)據(jù)本身是json格式的,所以解析起來(lái)非常容易:

最后,批量構(gòu)造網(wǎng)址,實(shí)現(xiàn)循環(huán)爬取。
溫馨提示:文明人,文明爬,控制好訪問(wèn)間隔時(shí)間

Easy~
接下來(lái),我們參考銷(xiāo)量排名,分別爬取了9款內(nèi)衣產(chǎn)品共44832條評(píng)論數(shù)據(jù),來(lái)一探內(nèi)衣究竟。
注:上面已經(jīng)把爬取的核心邏輯和代碼做了展示,完整代碼和本次爬取的評(píng)論數(shù)據(jù)已經(jīng)整理好,放在文末。為節(jié)省篇幅,本次故意略去清洗數(shù)據(jù),感興趣的同學(xué)可自行嘗試。
數(shù)據(jù)分析
我們已經(jīng)成功爬到了此次分析的全部數(shù)據(jù):

款式,買(mǎi)家昵稱(chēng)(加密過(guò)的),評(píng)論內(nèi)容,評(píng)價(jià)日期全都健在。
按常規(guī)套路來(lái)說(shuō),做評(píng)價(jià)分析有三板斧:
先按時(shí)間維度來(lái)統(tǒng)計(jì)評(píng)價(jià)發(fā)布規(guī)律,再調(diào)用官方情感API做個(gè)簡(jiǎn)單情感分析,最后來(lái)一波詞云圖,美滋滋收工~

我本來(lái)也打算這樣分析,但這種做法像是分析了很多,又好像沒(méi)分析什么,對(duì)于內(nèi)衣數(shù)據(jù),未免太暴殄天物。
本次評(píng)論分析,小z不打算分析文本本身,畢竟大家關(guān)注的,貌似都是size數(shù)據(jù)?。?/span>
有兩個(gè)關(guān)于size的觀點(diǎn),困擾了我很久,今天就來(lái)逐一驗(yàn)證一波。
1、人人都是C-CUP?
之前逛某乎,看到過(guò)一篇不太正經(jīng)的科普,講的是經(jīng)濟(jì)發(fā)展,提升了人民的生活水平。
人民生活水平提升了,各種營(yíng)養(yǎng)補(bǔ)充就更充分了,人們關(guān)注的身體特征也得到了充分的發(fā)展,像身高啊,胸圍啊等等。里面印象比較深的一個(gè)觀點(diǎn),是作者認(rèn)為目前c-cup已經(jīng)是主流了。
憑借多年對(duì)生活細(xì)致入微的觀察,我對(duì)這個(gè)觀點(diǎn)表示嚴(yán)重懷疑。
Talk is cheap,幾行Python,便統(tǒng)計(jì)出了罩杯分布:

數(shù)據(jù)不吹牛,C罩杯遠(yuǎn)遠(yuǎn)還沒(méi)成為主流!
從數(shù)據(jù)上看,B罩杯44.61%的占比,體現(xiàn)了數(shù)量上毫無(wú)疑問(wèn)的優(yōu)勢(shì),C罩杯排名第二,占比24.41%,隨后是A罩杯的18.50%,最后是不到十位數(shù)占比的D、E、F。
說(shuō)實(shí)話,我是看了型號(hào)統(tǒng)計(jì)數(shù)據(jù),才知道還有F...

注:百分比為各自罩杯下的占比,柱高表示數(shù)量的多少
對(duì)三大罩杯型號(hào)做進(jìn)一步分析,可以看到,罩杯往大了走,下圍也往大了走。同時(shí),我們也能發(fā)現(xiàn),不同消費(fèi)者對(duì)于“松緊程度”也有不同的偏好,像C罩杯竟然還有2%選擇70下圍的。
2、消費(fèi)力越強(qiáng),罩杯越大?
我曾經(jīng)還聽(tīng)過(guò)一個(gè)沙雕論證:
多吃木瓜會(huì)變大
木瓜不便宜,所以經(jīng)常吃木瓜的人(更rich)也會(huì)買(mǎi)更高檔的內(nèi)衣
由此可得,買(mǎi)越高檔內(nèi)衣的人,平均罩杯也就越大
眼尖的同學(xué)看數(shù)據(jù)源的時(shí)候已經(jīng)發(fā)現(xiàn)了,我在爬取數(shù)據(jù)的時(shí)候特意通過(guò)價(jià)格對(duì)內(nèi)衣做了區(qū)分。爬取的44832條評(píng)價(jià),來(lái)源于9款產(chǎn)品。其中3款價(jià)格低于100元,定義為平價(jià)款;3款中端型內(nèi)衣價(jià)格介于100-200元,200元以上則是高端款。
一波可視化,數(shù)據(jù)會(huì)說(shuō)話

不用做嚴(yán)謹(jǐn)?shù)氖裁聪嚓P(guān)分析我們就能看出:
內(nèi)衣平價(jià),但不平庸。平價(jià)內(nèi)衣呈現(xiàn)出一種類(lèi)鐘型分布,以B罩杯為主,A和C在兩側(cè)均勻分布,值得注意的是,D和E罩杯合計(jì)占比也接近7%。
中端內(nèi)衣,波濤洶涌。C罩杯誠(chéng)不欺我,已然成為主力,D及以上的罩杯,占比竟然超過(guò)了30%。
高端內(nèi)衣,并不高聳。A和B占去了83%的份額,竟然沒(méi)有C以上的...
瞎BB:難道平價(jià)型內(nèi)衣以學(xué)生為主,還處在進(jìn)一步發(fā)育階段。而買(mǎi)高端內(nèi)衣的人,大多追求的是“高級(jí)”感、性冷淡風(fēng)。
以上,是關(guān)于如何爬取評(píng)論數(shù)據(jù),并基于評(píng)論附帶的款式數(shù)據(jù),做一些另類(lèi)角度的沙雕趣味分析,重在拋磚引玉,感興趣的同學(xué)還可進(jìn)一步深挖。
拿到數(shù)據(jù),把目光僅僅局限在現(xiàn)有數(shù)據(jù)維度,硬懟分析邏輯,是很多剛?cè)胄型瑢W(xué)的誤區(qū)。
在接下來(lái)不定期的趣味分析內(nèi)容中,我會(huì)嘗試解構(gòu)如何預(yù)設(shè)分析方向,如何拆解分析方向,如何讓數(shù)據(jù)源服務(wù)于分析本身這些命題,希望對(duì)大家有所幫助。
最后,完整爬取代碼已經(jīng)打包好,獲取地址如下
下載鏈接:
https://pan.baidu.com/s/1faLPDuw794qee1qZRf0oZg?
提取碼:1qdc

推薦閱讀
歡迎長(zhǎng)按掃碼關(guān)注「數(shù)據(jù)管道」
