統(tǒng)計(jì)圖表怎么做?我用一份二手房數(shù)據(jù)給你講明白

導(dǎo)讀:報(bào)表與統(tǒng)計(jì)圖作為數(shù)據(jù)信息輸出的一種方式,被廣泛運(yùn)用于數(shù)據(jù)展示、交流等工作中。本文使用一份二手房數(shù)據(jù)演示如何制作報(bào)表與統(tǒng)計(jì)圖。

報(bào)表可用于展現(xiàn)數(shù)據(jù)的主要信息,分為包含維度(分類變量)指標(biāo)和度量(連續(xù)變量)指標(biāo)的報(bào)表。
僅含有維度指標(biāo)的報(bào)表稱為頻次表(單個(gè)分類變量)和交叉表(兩個(gè)及以上分類變量),含有維度和度量?jī)深愔笜?biāo)的報(bào)表稱為匯總表,其中度量指標(biāo)總是以某個(gè)統(tǒng)計(jì)量的形式出現(xiàn),最常出現(xiàn)的是均值、總和、頻次。
條形圖是一種運(yùn)用非常廣泛的數(shù)據(jù)展示圖,便于分類變量之間的數(shù)據(jù)對(duì)比。條形圖和報(bào)表有一一對(duì)應(yīng)關(guān)系。如果有一個(gè)分類變量,條形圖就是一維的;如果有兩個(gè)分類變量,條形圖就是二維的。條的長(zhǎng)度對(duì)應(yīng)頻次或度量指標(biāo)的某個(gè)統(tǒng)計(jì)量,如圖1所示。

▲圖1 報(bào)表與統(tǒng)計(jì)圖形
接下來使用一份二手房數(shù)據(jù)(sndHsPr.csv)演示如何制作報(bào)表。對(duì)于二手房,我們不但關(guān)心其本身的統(tǒng)計(jì)特征(統(tǒng)計(jì)量),還關(guān)心影響這個(gè)變量的因素,如表1所示。
▼表1 二手房數(shù)據(jù)

制作報(bào)表就是根據(jù)數(shù)據(jù)類型選取合適的統(tǒng)計(jì)量并進(jìn)行展現(xiàn)的過程。圖2表現(xiàn)的是一個(gè)比較全面的二維表模板,三維表只不過是簡(jiǎn)單的疊加而已。水平軸和垂直軸分別是兩個(gè)分類變量。單元格中存放的是某個(gè)變量的統(tǒng)計(jì)量。如果單元格中沒有放入任何變量,其展現(xiàn)的是頻次或百分比等指標(biāo)。如果單元格中放入某個(gè)連續(xù)變量,其展現(xiàn)的就是這個(gè)連續(xù)變量的某個(gè)統(tǒng)計(jì)量,比如均值、總和等。

▲圖2 二維表模板
將二維表模板的內(nèi)容進(jìn)行縮減,可以得到單因子頻數(shù)、表分析、匯總統(tǒng)計(jì)量,具體說明如下。
1)單因子頻數(shù):僅分析單個(gè)分類變量的分布情況,提供每個(gè)分類水平的頻次、百分比和累積值,如圖3所示。

▲圖3 單因子頻數(shù)統(tǒng)計(jì)示意
snd為讀入數(shù)據(jù)后的數(shù)據(jù)框名稱,district為該住房所在城區(qū)的中文名稱,value_counts函數(shù)用于獲取每個(gè)城區(qū)出現(xiàn)的頻次,完整的語(yǔ)句為snd.district.value_counts()。用條形圖展現(xiàn)頻次統(tǒng)計(jì)的語(yǔ)句為snd.district.value_counts().plot(kind = 'bar'),其中“kind =”為圖表類型,bar表示柱形圖,如圖4所示。

▲圖4 單因子統(tǒng)計(jì)圖形示意
2)表分析:分析兩個(gè)分類變量的聯(lián)合分布情況,提供每個(gè)單元格中樣本出現(xiàn)的頻次、百分比和邊沿分布情況,如圖5所示。

▲圖5 表分析示意
表分析(也稱交叉表)使用的函數(shù)為pd.crosstab,比如分析是否有地鐵與是否是學(xué)區(qū)房之間的關(guān)系,語(yǔ)句為pd.crosstab(snd.subway,snd.school)。我們可以使用標(biāo)準(zhǔn)化堆疊柱形圖對(duì)表分析的結(jié)果進(jìn)行展現(xiàn)。其步驟是先獲取交叉表的結(jié)果,然后使用div(sub_sch.sum(1),axis = 0)函數(shù)計(jì)算交叉表的行百分比,最后繪制柱形圖,如圖6所示。

▲圖6 表分析統(tǒng)計(jì)圖形
堆疊柱形圖易于展現(xiàn)橫軸變量的分布情況,標(biāo)準(zhǔn)化堆疊柱形圖易于做比較,筆者推薦采用圖7來展現(xiàn)全部交叉表信息。筆者使用stack2dim函數(shù)制作堆疊柱形圖,其主要參數(shù)raw為Pandas的數(shù)據(jù)框,i、j為兩個(gè)分類變量的變量名稱,要求帶引號(hào),比如"school"。

▲圖7 堆疊柱形圖示意
3)匯總統(tǒng)計(jì)量:按照某個(gè)分類變量分組,對(duì)連續(xù)變量進(jìn)行描述性統(tǒng)計(jì),如圖8所示。

▲圖8 匯總統(tǒng)計(jì)量示意
圖9展現(xiàn)了每個(gè)城區(qū)單位面積房?jī)r(jià)的統(tǒng)計(jì)信息,我們可以使用Pandas提供的函數(shù)snd.price.groupby(snd.district).agg(['mean', 'max', 'min'])獲取。該語(yǔ)句的含義為按照district變量分組,計(jì)算price的均值、最大值、最小值,其中agg函數(shù)的功能是歸并若干個(gè)函數(shù)的結(jié)果。

▲圖9 匯總統(tǒng)計(jì)量統(tǒng)計(jì)圖形示意
本文摘編于《金融商業(yè)數(shù)據(jù)分析:基于Python和SAS》,經(jīng)出版方授權(quán)發(fā)布。(書號(hào):978-7-7-111-69583-7)

延伸閱讀??

延伸閱讀《金融商業(yè)數(shù)據(jù)分析》
推薦語(yǔ):這是一本金融商業(yè)數(shù)據(jù)分析的實(shí)戰(zhàn)工具書。作者都是在金融行業(yè)有10~20年數(shù)據(jù)分析經(jīng)驗(yàn)的資深專家,他們將多年來的項(xiàng)目經(jīng)驗(yàn)、培訓(xùn)和咨詢經(jīng)驗(yàn)融合成了這本書。它將指導(dǎo)讀者零基礎(chǔ)掌握金融數(shù)據(jù)分析的工具、思路、方法和技巧,快速實(shí)現(xiàn)從入門到進(jìn)階的突破。本書強(qiáng)調(diào)實(shí)戰(zhàn),方法論與實(shí)踐相結(jié)合,所有案例均來自實(shí)際的金融業(yè)務(wù),涵蓋工具使用、數(shù)據(jù)處理、統(tǒng)計(jì)分析等數(shù)據(jù)分析的全流程。?
干貨直達(dá)??
