Pandas 的這個(gè)知識(shí)點(diǎn),估計(jì) 80% 的人都得掛!

大家好,我是 早起,今天來跟大家分享下 pandas 中 apply 函數(shù)的一個(gè)技巧。
Pandas 中 apply 函數(shù),應(yīng)用廣泛,今天要跟大家分享一個(gè)使用的技巧,使用 apply 將 dataframe 中內(nèi)容為 list 的列拆分為多列。
拆分前的數(shù)據(jù)情況,如下圖紅色標(biāo)注所示:

拆分后,如下圖所示:

這個(gè)案例中,Lemon 使用的數(shù)據(jù)來自 akshare ,在開始前,引入相關(guān) package :
import?pandas?as?pd
import?akshare?as?ak
Lemon 使用的兩個(gè) Python 庫的版本信息如下:
print(ak.__version__)
0.7.22
print(pd.__version__)
1.1.4
先從 akshare 獲取需要的數(shù)據(jù),分為兩步,第一步是獲取基金代碼的列表,如下:
df?=?ak.fund_em_fund_name().head(20).tail(5)
df?=?df[['基金代碼','基金簡稱']]
print(df)
第二步是獲取基金凈值數(shù)據(jù)和凈值日期,通過一個(gè)自定義函數(shù)來獲取,自定義函數(shù)如下:
#?獲取基金單位凈值以及凈值日期
def?get_mutual_fund(code):
????df?=?ak.fund_em_open_fund_info(fund=code,?indicator="單位凈值走勢")
????df.columns?=?['凈值日期',?'單位凈值',?'equityReturn',?'unitMoney']
????df['凈值日期']?=?pd.to_datetime(df['凈值日期'])
????df?=?df.sort_values('凈值日期',ascending=False)
????unit_equity?=?df.head(1)['單位凈值'].values[0]
????date_latest?=?df.head(1)['凈值日期'].values[0]
????return?[unit_equity,?date_latest]
對(duì)于這個(gè)自定義函數(shù),在 pandas 使用 apply 來應(yīng)用自定義函數(shù),這是使用 apply 的一種常用的方法,如下:
#?獲取基金最新的單位凈值和凈值日期
df['tmp']?=?df['基金代碼'].apply(get_mutual_fund)
print(df)
獲取的數(shù)據(jù)截圖如下:

上圖中的 tmp 列,就是我們這次需要進(jìn)行處理的對(duì)象。
處理方法可以有多種,這里 Lemon 使用 pandas 中的 apply 來處理,相對(duì)來說,也是比較便捷的方式。
在 apply 函數(shù)中,使用 pd.Series 就可以達(dá)到我們的目的。
#?將單位凈值和凈值日期單獨(dú)成列
df[['最新單位凈值','凈值日期']]?=?df['tmp'].apply(pd.Series)
df?=?df.drop('tmp',axis=1)
print(df)
結(jié)果如下:

看起來復(fù)雜的問題,解決起來也很便捷,是不是很容易啊,趕緊用起來吧。
-END-
有幸入選CSDN博客之星評(píng)選,希望各位大佬點(diǎn)擊閱讀原文幫忙來一票,你一票,我一票,早起明天就出道
