Pandas玩轉(zhuǎn)數(shù)據(jù)透視表,用它就夠了!
對(duì)于數(shù)據(jù)透視表,相信對(duì)于 Excel 比較熟悉的小伙伴都知道如何使用它,并了解它的強(qiáng)大之處,而在pandas中要實(shí)現(xiàn)數(shù)據(jù)透視就要用到pivot_table了。
導(dǎo)入示例數(shù)據(jù)
首先導(dǎo)入演示的數(shù)據(jù)集。
import?pandas?as?pd
df?=?pd.read_csv('銷售目標(biāo).csv')
df.head()

參數(shù)說明

主要參數(shù):
data:待操作的 DataFramevalues:被聚合操作的列,可選項(xiàng)index:行分組鍵,作為結(jié)果 DataFrame 的行索引columns:列分組鍵,作為結(jié)果 DataFrame 的列索引aggfunc:聚合函數(shù)/函數(shù)列表,默認(rèn) numpy.mean 這里要注意如果 aggfunc 中存在函數(shù)列表,則返回的 DataFrame 中會(huì)顯示函數(shù)名稱fill_value:默認(rèn) None,可設(shè)定缺省值dropna:默認(rèn) True,如果列的所有值都是 NaN,將被刪除;False 則保留margins:默認(rèn) False,設(shè)置為 True 可以添加行/列的總計(jì)margins_name:默認(rèn)顯示 'ALL',當(dāng)margins = True時(shí),可以設(shè)定 margins ?行/列的名稱
常用操作
使用pivot_table時(shí)必須要指定index,因?yàn)橛?jì)算時(shí)要根據(jù)index進(jìn)行聚合。
pd.pivot_table(df.head(20),
???????????????index='訂單日期',
???????????????aggfunc=np.sum)

通過指定value來選擇被聚合的列。
pd.pivot_table(df.head(20),
???????????????values='銷售目標(biāo)',
???????????????index='訂單日期',
???????????????aggfunc=np.sum)

當(dāng)只指定index進(jìn)行聚合時(shí),其實(shí)用groupby可以實(shí)現(xiàn)同樣的效果。
df.head(20).groupby(['訂單日期'])['銷售目標(biāo)'].sum().reset_index()
添加columns參數(shù),對(duì)列分組。
pd.pivot_table(df.head(10),
???????????????values='銷售目標(biāo)',
???????????????index=['訂單日期',?'類別'],
???????????????columns='細(xì)分',
???????????????aggfunc=np.sum)

對(duì)于上面結(jié)果中的空值,使用fill_value參數(shù)統(tǒng)一填充為0
pd.pivot_table(df.head(10),
???????????????values='銷售目標(biāo)',
???????????????index=['訂單日期',?'類別'],
???????????????columns=['細(xì)分'],
???????????????aggfunc=np.sum,
???????????????fill_value=0)

現(xiàn)在按年份來統(tǒng)計(jì)銷售數(shù)據(jù),注意此時(shí)的aggfunc參數(shù),當(dāng)參數(shù)值包含列表時(shí),在結(jié)果DataFrame中就會(huì)顯示函數(shù)名稱。
pd.pivot_table(df,
???????????????values='銷售目標(biāo)',
???????????????index=['年份',?'類別'],
???????????????columns='細(xì)分',
???????????????aggfunc=[np.sum])

如果需要添加合計(jì)列,只需指定margins=True即可,同時(shí)根據(jù)需要指定合計(jì)名稱。
pd.pivot_table(df,
???????????????values='銷售目標(biāo)',
???????????????index=['年份',?'類別'],
???????????????columns='細(xì)分',
???????????????aggfunc=np.sum,
???????????????margins=True,
??????????????margins_name='合計(jì)')

當(dāng)然與groupby類似,對(duì)于計(jì)算函數(shù)我們可以同時(shí)指定多種方式。
pd.pivot_table(df,
???????????????values='銷售目標(biāo)',
???????????????index=['年份',?'類別'],
???????????????columns=['細(xì)分'],
???????????????aggfunc={'銷售目標(biāo)':?[max,?np.sum]},
???????????????fill_value=0)

以上就是pandas數(shù)據(jù)透視的常用操作了,使用起來也是十分簡單,大家可以自己練習(xí)一下,如果文章對(duì)你有幫助,請(qǐng)點(diǎn)贊支持一下哦!
你的每一個(gè)點(diǎn)贊、在看,每一條留言,每一次轉(zhuǎn)發(fā),都對(duì)我很重要,感謝支持。
好的,那么下期見,我是愛貓愛技術(shù),更愛思思的老表???( ˙?˙ )???
近期閱讀學(xué)習(xí)推薦:
怎么才能寫出好看的Python代碼?這五個(gè)工具你得用上
建議收藏:12個(gè)Pandas數(shù)據(jù)處理高頻操作
如何找到我:
