南方人過(guò)冬有多難?Python分析全網(wǎng)取暖器銷(xiāo)量數(shù)據(jù)
大家好,歡迎來(lái)到 Crossin的編程教室 !
如果說(shuō)冬天對(duì)北方人來(lái)說(shuō)只是一個(gè)季節(jié),而對(duì)南方人來(lái)說(shuō)是一場(chǎng)“渡劫”。北方的冷是干冷,物理攻擊,多穿一點(diǎn)就好了。而且室內(nèi)有暖氣,在室內(nèi)可以穿著短袖吃冰棍。

而南方的冷是濕冷,魔法攻擊,穿再多沒(méi)有用。而且室內(nèi)還沒(méi)暖氣,各種段子也是層出不窮:
“你在北方的暖氣里四季如春,我在南方的寒冬下凍成冰棍兒”
“北方人過(guò)冬靠的是暖氣,南方人過(guò)冬靠的是一身正氣”
“我是一只來(lái)自北方的狼,來(lái)到南方卻被凍成了狗”

一到冬天南方人除了靠一身浩然正氣,空調(diào)、電熱毯、油汀、電暖氣等各類(lèi)花式取暖電器都得安排上。
內(nèi)貿(mào)批發(fā)平臺(tái)1688上獲取的數(shù)據(jù)顯示,進(jìn)入11月以來(lái),暖氣片在南方城市的銷(xiāo)量比去年同期增長(zhǎng)了300%,平臺(tái)上取暖小家電品類(lèi)整體營(yíng)業(yè)額同比增幅達(dá)到200%,其中發(fā)熱墊的同比增速甚至高達(dá)600%。
據(jù)顯示,暖氣片和暖氣設(shè)備銷(xiāo)量貢獻(xiàn)最大的國(guó)內(nèi)客戶(hù),主要都是來(lái)自長(zhǎng)江沿線(xiàn)城市,以江浙滬、安徽、湖南、湖北、重慶、四川等地居多,一時(shí)間“南方取暖設(shè)備被買(mǎi)爆”話(huà)題登上了微博熱搜,讓人不禁感嘆南方人過(guò)個(gè)冬天實(shí)在是太難了。

用Python分析全網(wǎng)取暖器數(shù)據(jù)
我們使用Python獲取了某寶搜索關(guān)鍵詞暖氣片、取暖器、壁掛爐的商品數(shù)據(jù),并進(jìn)行了數(shù)據(jù)分析。
注:本文內(nèi)容僅作為編程技術(shù)學(xué)習(xí)討論,相關(guān)代碼和數(shù)據(jù)不可用于商業(yè)用途,否則后果自負(fù)。
讀取數(shù)據(jù)
首先導(dǎo)入獲取的數(shù)據(jù)。
#?導(dǎo)入工具包
import?numpy?as?np?
import?pandas?as?pd?
from?pyecharts.charts?import?Bar,?Pie,?Map,?Page
from?pyecharts?import?options?as?opts
import?jieba?
#?讀取數(shù)據(jù)
df_all?=?pd.read_csv('../data/導(dǎo)出數(shù)據(jù).csv')
df_all.head()?

df_all.shape
(13212,?7)
數(shù)據(jù)清洗和整理
此處我們需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗以便后續(xù)分析和可視化,主要工作內(nèi)容如下:
刪除記錄的重復(fù)值 goods_price列處理:提取數(shù)值 purchase_num列處理:提取數(shù)值 計(jì)算銷(xiāo)售額sales_volume = goods_price*purchase_num 刪除多余的列
代碼實(shí)現(xiàn)如下:
df?=?df_all.copy()
#?去除重復(fù)值
df.drop_duplicates(inplace=True)
df.shape
(6849,?7)
#?篩選記錄
df?=?df[df['purchase_num'].str.contains('人付款')]
#?goods_price列處理
df['goods_price']?=?df['goods_price'].str.extract('(\d+\.{0,1}\d*)')??
df['goods_price']?=?df['goods_price'].astype('float')
#?purchase_num列處理
df['num']?=?df['purchase_num'].str.extract('(\d+\.{0,1}\d*)')
df['num']?=?df['num'].astype('float')?
df['unit']?=?[10000?if?'萬(wàn)'?in?i?else?1?for?i?in?df['purchase_num']]
#?計(jì)算銷(xiāo)量
df['purchase_num']?=?df['num']?*?df['unit']
#?計(jì)算銷(xiāo)售額
df['sales_volume']?=?df['goods_price']?*?df['purchase_num']
#?提取省份字段?
df['province_name']?=?df['location'].astype('str').str.split('?').apply(lambda?x:x[0])?
#?刪除多余的列
df.drop(['num',?'unit',?'detail_url'],?axis=1,?inplace=True)
#?重置索引
df?=?df.reset_index(drop=True)
df.head()?

數(shù)據(jù)可視化
此處我們對(duì)店鋪銷(xiāo)量、產(chǎn)地分布、商品價(jià)格等方面進(jìn)行可視化分析:
市場(chǎng)上的取暖器種類(lèi)較多,有暖風(fēng)機(jī)、小太陽(yáng)、電熱膜、油汀、快熱爐、踢腳線(xiàn)等取暖設(shè)備,我們首先看到這些取暖器的標(biāo)題詞云。
商品標(biāo)題詞云圖

可以看到"取暖器" "暖風(fēng)機(jī)" "暖氣片"都是出現(xiàn)的高頻詞。在特征方面"家用" "節(jié)能" "速熱"都十分常見(jiàn)。
接著,看到店鋪月銷(xiāo)量排名Top10。
店鋪月銷(xiāo)量排名Top10

可以看到店鋪銷(xiāo)量前十,凱瑞萊旗艦店位居第一。其后春尚電器專(zhuān)營(yíng)店和蘇寧易購(gòu)分別是第二第三名。排在前十的還有美的、tcl等品牌。
#?計(jì)算top10店鋪
shop_top10?=?df.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
全國(guó)各省份產(chǎn)地銷(xiāo)量排名Top10

這些取暖器的產(chǎn)地都在哪兒呢?經(jīng)過(guò)分析發(fā)現(xiàn),浙江是生產(chǎn)取暖器的頭號(hào)大省,在產(chǎn)地銷(xiāo)量排名中一騎絕塵位居第一。之后排在第二位的是廣東。湖南、江蘇、山東分別位居第三第四第五名。
#?計(jì)算銷(xiāo)量top10
province_top10?=?df.groupby('province_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
不同價(jià)格區(qū)間的商品數(shù)量占比

取暖器都賣(mài)多少錢(qián)呢?經(jīng)過(guò)分析發(fā)現(xiàn),100元以下的商品是最多占比高達(dá)34.76%。其次是200-500元的商品,占比22.09%。
不同價(jià)格區(qū)間的銷(xiāo)量占比

與此同時(shí),在銷(xiāo)量方面,價(jià)格在100元以下和100-200元之間的取暖產(chǎn)品也是銷(xiāo)量最好的,全網(wǎng)銷(xiāo)售量分別占比37.49%和35.92%。
結(jié)語(yǔ)
有了各式各樣的取暖器,南方冬天就好過(guò)了嗎?并不,空調(diào)開(kāi)久了干,踢腳線(xiàn)耗電高,油汀等電暖氣更適合局部取暖,大空間制熱效果差。
雖然近年來(lái)也有很多南方家庭選擇全房裝地暖的,然而電暖用起來(lái)一個(gè)月電費(fèi)就高達(dá)2、3千,這可能就是北方一個(gè)冬天的暖氣費(fèi)用了。這么對(duì)比起來(lái),似乎還是開(kāi)空調(diào)和取暖器實(shí)在啊。
獲取文中相關(guān)數(shù)據(jù)代碼,請(qǐng)?jiān)诠娞?hào)后臺(tái)回復(fù)關(guān)鍵字:取暖器
如果文章對(duì)你有幫助,歡迎轉(zhuǎn)發(fā)/點(diǎn)贊/收藏~
出品:CDA數(shù)據(jù)分析師(ID: cdacdacda)
_往期文章推薦_
