真香!我挖到了4款超級強大的 Python 數(shù)據(jù)科學(xué)工具!
Pandas 在數(shù)據(jù)科學(xué)和機器學(xué)習領(lǐng)域的成功和優(yōu)勢歸功于功能和方法的多樣性和靈活性。
在這篇文章中,我們將介紹四個 pandas 函數(shù),這些函數(shù)雖然使用頻率較低,但卻非常實用、強大。
讓我們從導(dǎo)入 NumPy 和 Pandas 開始。
import?numpy?as?np
import?pandas?as?pd
1、factorize
它提供了一種對分類變量進行編碼的簡單方法,這是大多數(shù)機器學(xué)習技術(shù)中必需的任務(wù)。
下面是來自客戶流失數(shù)據(jù)集的分類變量。
df?=?pd.read_csv('/content/Churn_Modelling.csv')
df['Geography'].value_counts()
France?????5014?
Germany????2509?
Spain??????2477?
Name:?Geography,?dtype:?int64
我們只需一行代碼就可以對類別(即轉(zhuǎn)換為數(shù)字)進行類別轉(zhuǎn)換。
df['Geography'],?unique_values?=?pd.factorize(df['Geography'])
因子函數(shù)返回轉(zhuǎn)換的值以及類別的索引
df['Geography'].value_counts()
0????5014?
2????2509?
1????2477?
Name:?Geography,?dtype:?int64
unique_values
Index(['France',?'Spain',?'Germany'],?dtype='object')
如果原始數(shù)據(jù)中缺少值,可以指定要用于這些值的值。默認值為 -1。
A?=?['a','b','a','c','b',?np.nan]
A,?unique_values?=?pd.factorize(A)
array([?0,??1,??0,??2,??1,?-1])
A?=?['a','b','a','c','b',?np.nan]
A,?unique_values?=?pd.factorize(A,?na_sentinel=99)
array([?0,??1,??0,??2,??1,?99])
2、Categorical
Categorical 可用于創(chuàng)建分類變量。
A?=?pd.Categorical(['a','c','b','a','c'])
我們只能從現(xiàn)有類別之一分配新值。否則,我們將得到一個值錯誤。
A[0]?=?'d'
ValueError:?Cannot?setitem?on?a?Categorical?with?a?new?category,?set?the?categories?first
3、Interval
它返回表示 Interval 的不可變對象。當我們處理日期時間數(shù)據(jù)時,Interval 會派上用場。我們可以很容易地檢查日期是否以指定的間隔。
date_iv?=?pd.Interval(left?=?pd.Timestamp('2019-10-02'),?right?=?pd.Timestamp('2019-11-08'))
date?=?pd.Timestamp('2019-10-10')
date?in?date_iv
True
4、Wide_to_long
Wide_to_long將寬數(shù)據(jù)框轉(zhuǎn)換為長數(shù)據(jù)。它提供了一種靈活且對用戶更友好的方式。
請看以下示例數(shù)據(jù)。
我們希望重塑此數(shù)據(jù)幀
pd.wide_to_long(df,?stubnames=['A','B'],?i='names',?j='score_type')
返回的數(shù)據(jù)幀具有多級索引,我們可以通過應(yīng)用該函數(shù)將其轉(zhuǎn)換為reset_index索引。

另外,再送大家一份《Python數(shù)據(jù)科學(xué)手冊》
以大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、人工智能等新技術(shù)所推動的數(shù)字化轉(zhuǎn)型正迅速的改變著我們所處的時代,各大互聯(lián)網(wǎng)公司都積累了大量的用戶數(shù)據(jù),比如購物、社交、出行等。充分挖掘數(shù)據(jù)價值,就是需要不斷的和數(shù)據(jù)打交道。
如果你對數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)化運營感興趣,卻又無從下手,那么我來給你推薦一本不錯的書籍--《Python數(shù)據(jù)科學(xué)手冊》。

領(lǐng)取方式:
長按掃碼,發(fā)消息?[數(shù)據(jù)分析]
