国产成人69天堂,在线观看黄色网,欠欠欠久久精品一级探花,欧美在线三级片,国产操逼逼,手机在线性爱视频,天天躁日日躁狠狠躁av,亚洲精品性爱

今天是我們一起來聊聊dataframe的合并。

常見的數(shù)據(jù)合并操作主要有兩種，第一種是我們新生成了新的特征，想要把它和舊的特征合并在一起。第二種是我們新獲取了一份數(shù)據(jù)集，想要擴充舊的數(shù)據(jù)集。這兩種合并操作在我們?nèi)粘５墓ぷ鳟斨蟹浅こ＃敲淳烤箲撛趺床僮髂?？讓我們一個一個來看。

merge

首先我們來看dataframe當中的merge操作，merge操作類似于數(shù)據(jù)庫當中兩張表的join，可以通過一個或者多個key將多個dataframe鏈接起來。

我們首先來創(chuàng)建兩個dataframe數(shù)據(jù)：

df1?=?pd.DataFrame({'id':?[1,?2,?3,?3,?5,?7,?6],?'age':?range(7)})

df2?=?pd.DataFrame({'id':?[1,?2,?4,?4,?5,?6,?7],?'score':?range(7)})

我們可以看到這兩個dataframe當中都有id這個字段，如果我們想要將它們根據(jù)id關聯(lián)起來，我們可以用pd.merge函數(shù)完成：

這里雖然我們沒有指定根據(jù)哪一列完成關聯(lián)，但是pandas會自動尋找兩個dataframe的名稱相同列來進行關聯(lián)。一般情況下我們不這么干，還是推薦大家指定列名。指定列名很簡單，我們只需要傳入on這個參數(shù)即可。

如果需要根據(jù)多列關聯(lián)，我們也可以傳入一個數(shù)組。但假如兩個dataframe當中的列名不一致怎么辦，比如這兩個dataframe當中的一列叫做id，一列叫做number，該怎么完成join呢？

df1?=?pd.DataFrame({'id':?[1,?2,?3,?3,?5,?7,?6],?'age':?range(7)})

df2?=?pd.DataFrame({'number':?[1,?2,?4,?4,?5,?6,?7],?'score':?range(7)})

這個時候就需要用left_on指定左表用來join的列名，用right_on指定右表用來join的列名。

談到join，不得不提另外一個問題就是join的方式。我們都知道在數(shù)據(jù)庫的表join操作當中我們通常的join方式有4種。分別是innner join，left join，right join和outer join。我們觀察一下上面的結果會發(fā)現(xiàn)關聯(lián)之后的數(shù)據(jù)條數(shù)變少了，這是因為默認的方式是inner join，也就是兩張表當中都存在的數(shù)據(jù)才會被保留。如果是left join，那邊左邊當中所有的數(shù)據(jù)都會保留，關聯(lián)不上的列置為None，同理，如果是right join，則右表全部保留，outer join則會全部保留。

join的方式選擇通過how這個參數(shù)控制，比如如果我們想要左表保留，我們傳入how='left'即可。

除此之外，merge操作還有一些其他的參數(shù)，由于篇幅限制我們不一一介紹了，大家感興趣可以去查閱相關文檔。

數(shù)據(jù)合并

另外一個常用的操作叫做數(shù)據(jù)合并，為了和merge操作區(qū)分，我用了中文。雖然同樣是合并，但是它的邏輯和merge是不同的。對于merge來說，我們需要關聯(lián)的key，是通過數(shù)據(jù)關聯(lián)上之后再合并的。而合并操作是直接的合并，行對行合并或者是列對列合并，是忽視數(shù)據(jù)的合并。

這個合并操作我們之前在numpy的介紹當中曾經(jīng)也提到過，我們這里簡單回顧一下。

首先我們先創(chuàng)建一個numpy的數(shù)組：

import?numpy?as?np
arr?=?np.random.rand(3,?4)

之后呢，我們可以用concatenate函數(shù)把這個數(shù)組橫著拼或者是豎著拼，默認是豎著拼：

我們也可以通過axis這個參數(shù)讓它變成橫著拼：

對于dataframe同樣也有這樣的操作，不過換了一個名字叫做concat。如果我們不指定的話會豎著拼接：

豎著拼接的時候會按照列進行對齊，如果列名對不上就會填充NaN。

通過axis參數(shù)我們可以讓它橫向拼接：

以上就是concat的基本用法了，除了基本用法之外，concat還有一些其他的應用，比如說處理index層次索引等等。只是這些用法相對來說比較小眾，使用頻率不高，就不贅述了。

Pandas的merge操作，像數(shù)據(jù)庫一樣盡情join

merge

數(shù)據(jù)合并