處理數(shù)據(jù)表格時(shí)“一行拆多行”和“多行并一行”,Python輕松搞定!
粉絲提問(wèn)
大家好,歡迎來(lái)到Crossin的編程教室!
前兩天有人提了下面這樣一個(gè)問(wèn)題,其中一個(gè)是“一行拆多行”(將單行一列中的多個(gè)值分成多行單值),另外一個(gè)是“多行并一行”(將多行單值合并為單行一列中的多個(gè)值)。這是在對(duì)Excel數(shù)據(jù)表格進(jìn)行數(shù)據(jù)處理時(shí)經(jīng)??赡苡龅降囊粋€(gè)場(chǎng)景,如果是用 Python 做數(shù)據(jù)處理應(yīng)該怎樣解決呢?今天我們就來(lái)演示一下。

一行拆多行
上面這個(gè)問(wèn)題我會(huì)提供兩個(gè)思路,供大家選擇,當(dāng)然肯定是越簡(jiǎn)單得越好。每種方法中都有一些好用的技巧,希望大家能夠好好學(xué)習(xí)。
1)方法一
下方代碼中有很多重要的知識(shí)點(diǎn),需要我們下去好好學(xué)習(xí)一下,我只提供解題思路,關(guān)于每個(gè)知識(shí)點(diǎn)怎么用,希望大家下去自行研究學(xué)習(xí)。
Pandas.melt()函數(shù)的用法; Series.str.split("/",expand=True)中,expand=True參數(shù)的用法; Series.sort_values()對(duì)文本進(jìn)行排序; Python中enumerate()函數(shù)的用法;
import?pandas?as?pd
#?讀取數(shù)據(jù)
df?=?pd.read_excel("test1.xlsx",sheet_name="Sheet1")
#?將一列炸裂成多列
df[["類型1","類型2","類型3"]]?=?df["電影類型"].str.split("/",expand=True)
#?選取想要的列
df_final?=?df[["電影名","類型1","類型2","類型3"]]
#?將行轉(zhuǎn)列
df_final?=?df_final.melt(id_vars=["電影名"],value_name="類型")
#?對(duì)“電影名”字段進(jìn)行排序
df_final?=?df_final[["電影名","類型"]]
df_final.sort_values(by="電影名",inplace=True)
#?刪除“類型==None”的行
for?index,value?in?enumerate(df_final["類型"]):
????if?value?==?None:
????????df_final.drop(df_final.index[index],inplace=True)
df_final結(jié)果如下:

2)方法二
上述方法確實(shí)復(fù)雜,由于我的Pandas版本是0.23.4,因此無(wú)法使用explode()方法,進(jìn)行炸裂操作。在pandas0.25版本的時(shí)候,DataFrame中才新增了一個(gè)explode()方法,專門用來(lái)將一行變多行。
Pandas.explode()函數(shù)的用法;
import?pandas?as?pd
#?讀取數(shù)據(jù)
df?=?pd.read_excel("test1.xlsx",sheet_name="Sheet1")
#?將一行拆分成列表形式,注意:這里不需要使用expand=True參數(shù)
df["type"]?=?df["電影類型"].str.split("/")
#?直接炸裂指定列
df.explode("type")結(jié)果如下:

多行并一行
這里沒(méi)有使用什么特別的知識(shí),好好的理解Pandas中分組聚合應(yīng)用某個(gè)函數(shù),即可輕松解決這個(gè)問(wèn)題。
import?pandas?as?pd
#?讀取數(shù)據(jù)
df?=?pd.read_excel("test1.xlsx",sheet_name="Sheet2")
#?分組聚合,應(yīng)用某個(gè)函數(shù)
def?func(df):
????return?','.join(df.values)
df?=?df.groupby(by='電影名').agg(func).reset_index()
df結(jié)果如下:

作者:黃偉呢
_往期文章推薦_
評(píng)論
圖片
表情
