【Pandas指南】初學(xué)者必備手冊
(給i小碼哥加星標(biāo),提升AI技能)
本文轉(zhuǎn)自AI新媒體量子位(公眾號?ID:?QbitAI)
數(shù)據(jù)可視化本來是一個非常復(fù)雜的過程,但隨著Pandas數(shù)據(jù)幀plot()函數(shù)的出現(xiàn),使得創(chuàng)建可視化圖形變得很容易。
在數(shù)據(jù)幀上進行操作的plot()函數(shù)只是matplotlib中plt.plot()函數(shù)的一個簡單包裝 ,可以幫助你在繪圖過程中省去那些長長的matplotlib代碼。
最近,一位來自印度的小哥以2019年世界幸福指數(shù)的數(shù)據(jù)為例,詳細講述了在Pandas中plot()函數(shù)的各種參數(shù)設(shè)置的小技巧,熟練掌握這些技巧后,你也能繪制出豐富多彩的可視化圖表。
導(dǎo)入數(shù)據(jù)
在繪制圖形前,我們首先需要導(dǎo)入csv文件:
import?pandas?as?pd
df=pd.read_csv(‘./world-happiness-report-2019.csv’)
df.head(3)
這個csv圖標(biāo)的內(nèi)容是各個國家按照不同維度評價的幸福指數(shù)(數(shù)據(jù)下載地址見文末):

數(shù)據(jù)幀中一些列的名稱比較冗長,可以重命名使其更加簡潔:
df.rename(columns={“Country?(region)”:?“Country”,?“Log?of?GDP\nper?capita”:?“Log_GDP_per_capita”,?“Healthy?life\nexpectancy”:”Health_life_expect”},inplace=True)
df.column繪制柱狀圖、散點圖等常見圖形
從最近簡單的柱狀圖開始,只統(tǒng)計腐敗程度、自由度、寬容度、社會支持等幾個維度
%matplotlib?tk
df1=df[:5]
df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social?support’],kind?=?‘bar’嫌直接寫名稱太麻煩?沒關(guān)系,我們也可以用所在列的數(shù)字來繪制,比如上述4個列分別為7、6、8、5:
%matplotlib?tk
df1=df[:5]
df1.plot(‘Country’,[7,6,8,5],kind?=?‘bar’)
在上面的代碼中kind = ‘bar’,所以繪制的圖形是柱狀圖,如果我們把參數(shù)改成kind = ‘line’,畫出的就是線狀圖。
df1=df[:5]
df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social?support’],kind?=?‘line’)
同樣的,如果把參數(shù)改成kind = ‘line’,還能繪制出箱形圖:
df[:5].plot(x=’Country’,kind=’box’)

對于散點圖,設(shè)置kind=’scatter’,繪制出腐敗程度與自由度之間的關(guān)系,用color=’R’將點定義為紅色:
df.plot(x=’Corruption’,y=’Freedom’,kind=’scatter’,color=’R’)

此外,Pandas中還有一個輔助函數(shù)pandas.plotting.table,它創(chuàng)建一個來自數(shù)據(jù)幀的表格,并將其添加到matplotlib Axes實例中。
from?pandas.plotting?import?table
df1=df[:5]
df1=df.loc[:5,[‘Country?(region)’,’Corruption’,’Freedom’,’Generosity’,’Social?support’]]
ax=df1.plot(‘Country?(region)’,[‘Corruption’,’Freedom’,’Generosity’,’Social?support’],?kind?=?‘bar’,?title?=’Bar?Plot’,legend=None)
table(ax,?np.round(df1.describe(),?2),loc=’upper?right’)
坐標(biāo)軸的設(shè)置
取值范圍
使用xlim和ylim兩個參數(shù)可設(shè)置x和y軸的范圍。在折線圖中,我們要將x軸設(shè)置為0到20,y限制為從0到100。
df1=df[:20]
df1[‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100))
x、y軸刻度
有時候坐標(biāo)軸上的刻度并不理想,我們希望在上面標(biāo)上我們喜歡的數(shù)值。
比如對于x軸,我們想要標(biāo)上0、10、15和20幾個值;對于y軸,我們想要標(biāo)上0、50、70、100幾個值,可以在xticks和yticks參數(shù)中悉數(shù)列出。
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,15,20]),yticks=([0,50,70,100]),?title?=?‘xticks’)

但是用列表來制定坐標(biāo)刻度的方法,在數(shù)值太多的時候就比較麻煩了,因此我們還能通過指定刻度間隔的方法來繪制坐標(biāo)軸,比如指定x軸間隔是1,y軸間隔是10:
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([w1?for?w?in?range(20)]),yticks=([w10?for?w?in?range(40)]))

如果我們不希望在坐標(biāo)軸上看到數(shù)字,而是想要設(shè)置標(biāo)簽。我們還可以將x軸標(biāo)簽更改為文本標(biāo)簽“低、中、高”這種樣式。
ax=df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,20]),yticks=([w*30?for?w?in?range(40)]))
ax.set_xticklabels([‘Low’,’Med’,’High’])
對數(shù)坐標(biāo)
如果數(shù)據(jù)的跨度范圍非常大,橫跨好幾個數(shù)量級,那么用線性坐標(biāo)就無法很好地展示數(shù)據(jù)。這時候我們需要用到對數(shù)坐標(biāo),設(shè)置方法是將logx或者logy的值設(shè)置為Ture。
如果我們只想設(shè)置x軸為對數(shù)坐標(biāo),y軸仍保持線性坐標(biāo),那么
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,1000),ylim=(0,100),color=’red’,logx=True)

其他高階用法
可以使用stacked參數(shù)來繪制帶有條形圖的堆疊圖。在這里,我們繪制堆疊的水平條,stacked設(shè)置為True。

將grid參數(shù)設(shè)置為True,可以給圖表加入網(wǎng)格。

有了subplot參數(shù)還可以繪制子圖,根據(jù)需要指定行數(shù)和列數(shù)以及繪圖的數(shù)量。

在上面的子圖中,我們沒有給子圖添加標(biāo)題。當(dāng)subplot 設(shè)置為True 時,在設(shè)置一組title的值,即可在列表上方加入標(biāo)題。
原文鏈接:?
https://kanoki.org/2019/09/16/dataframe-visualization-with-pandas-plot/?
表格下載地址:
https://www.kaggle.com/PromptCloudHQ/world-happiness-report-2019/version/1
作者系網(wǎng)易新聞·網(wǎng)易號“各有態(tài)度”簽約作者
——End——
后臺回復(fù)關(guān)鍵字:自學(xué),獲取一份精心整理的 5本Python 經(jīng)典用書 后臺回復(fù)關(guān)鍵字:國慶,獲取50本電子書。 推薦閱讀 這是一個能學(xué)到技術(shù)的公眾號,歡迎關(guān)注

