精品999久久久一级毛片,午夜资源网,成人一级黄片免费,老日本亚洲黄色电影,色噜噜狠狠一区二区三区Av蜜芽,狠狠干干,欧美美女操逼视频,日韩乱轮小说与视频

你好，我是 zhenguo

數(shù)據(jù)預(yù)處理常用的處理步驟，包括找出異常值、處理缺失值、過濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等，下面使用 pandas 解決這些最常見的預(yù)處理任務(wù)。

找出異常值常用兩種方法：

標(biāo)準(zhǔn)差法：異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
分位數(shù)法：小于 1/4分位數(shù)減去 1/4和3/4分位數(shù)差的1.5倍，大于3/4減去 1/4和3/4分位數(shù)差的1.5倍，都為異常值

技能1 ：標(biāo)準(zhǔn)差法

import?pandas?as?pd

df?=?pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})

#?異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
meangrade?=?df['a'].mean()
stdgrade?=?df['a'].std()
toprange?=?meangrade?+?stdgrade?*?1.96
botrange?=?meangrade?-?stdgrade?*?1.96

#?過濾區(qū)間外的值
copydf?=?df
copydf?=?copydf.drop(copydf[copydf['a']
????????>?toprange].index)
copydf?=?copydf.drop(copydf[copydf['a']
????????copydf

技能2：分位數(shù)法：

q1?=?df['a'].quantile(.25)
q3?=?df['a'].quantile(.75)
iqr?=?q3-q1
toprange?=?q3?+?iqr?*?1.5
botrange?=?q1?-?iqr?*?1.5

copydf?=?df
copydf?=?copydf.drop(copydf[copydf['a']
????????>?toprange].index)
copydf?=?copydf.drop(copydf[copydf['a']
????????copydf

技能3：處理空值

np.nan 是 pandas 中常見空值，使用 dropna 過濾空值，axis 0 表示按照行，1 表示按列，how 默認(rèn)為 any ，意思是只要有一個 nan 就過濾某行或某列，all 所有都為 nan

#?axis?0?表示按照行，all?此行所有值都為?nan
df.dropna(axis=0,?how='all')

技能4：充填空值

空值一般使用某個統(tǒng)計值填充，如平均數(shù)、眾數(shù)、中位數(shù)等，使用函數(shù) fillna:

#?使用a列平均數(shù)填充列的空值，inplace?true表示就地填充
df["a"].fillna(df["a"].mean(),?inplace=True)

技能5：修復(fù)不合適值

假如某門課最高分100，如果出現(xiàn) -2， 120 這樣的值，顯然不合理，使用布爾類型的Series對象修改數(shù)值：

df.loc[(df['a']?-2,'a')]?=?0
df.loc[(df['a']?>=?100,'a')]?=?100

技能6：過濾重復(fù)值

過濾某列重復(fù)值，使用 drop_duplicated 方法，第一個參數(shù)為列名，keep關(guān)鍵字等于last：最后一次出現(xiàn)此值行：

df.drop_duplicates(['Names'],?keep='last')

技能7：apply 元素級：去掉特殊字符

某列單元格含有特殊字符，如標(biāo)點符號，使用元素級操作方法 apply 干掉它們：

import?string
exclude?=?set(string.punctuation)

def?remove_punctuation(x):
????x?=?''.join(ch?for?ch?in?x?if?ch?not?in?exclude)
????return?x
#?原df
Out[26]:?
??????a???????b
0???c,d??edc.rc
1?????3???????3
2??d?ef???????4

#?過濾a列標(biāo)點
In?[27]:?df.a?=?df.a.apply(remove_punctuation)?
In?[28]:?df????????????????
Out[28]:?
??????a???????b
0????cd??edc.rc
1?????3???????3
2??d?ef???????4

技能8：cut 數(shù)據(jù)分箱

將百分制分?jǐn)?shù)轉(zhuǎn)為A,B,C,D四個等級，bins 被分為 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

#?生成20個[0,100]的隨機整數(shù)
In?[30]:?a?=?np.random.randint(1,100,20)???????????????????
In?[31]:?a????????????????????????????????????
Out[31]:?
array([48,?22,?46,?84,?13,?52,?36,?35,?27,?99,?31,?37,?15,?31,??5,?46,?98,99,?60,?43])

#?cut分箱
In?[33]:?pd.cut(a,?[0,60,75,90,100],?labels?=?['D',?'C',?'B',?'A'])?????????????
Out[33]:?
[D,?D,?D,?B,?D,?...,?D,?A,?A,?D,?D]
Length:?20
Categories?(4,?object):?[D?

技能9：rank 排名

rank 方法，生成數(shù)值排名，ascending 為False，分值越大，排名越靠前：

In?[36]:?df?=?pd.DataFrame({'a':[46,?98,99,?60,?43]}?))?
In?[53]:?df['a'].rank(ascending=False)???????????????????
Out[53]:?
0????4.0
1????2.0
2????1.0
3????3.0
4????5.0

技能10：category列轉(zhuǎn)數(shù)值

某列取值只可能為有限個枚舉值，往往需要轉(zhuǎn)為數(shù)值，使用get_dummies，或自己定義函數(shù)：

pd.get_dummies(df['a'])

自定義函數(shù)，結(jié)合 apply:

def?c2n(x):
????if?x=='A':
????????return?95
????if?x=='B':
????????return?80

df['a'].apply(c2n)

以上結(jié)合數(shù)據(jù)預(yù)處理的十個小任務(wù)，分別找到對應(yīng)pandas中的實現(xiàn)。

更多相關(guān)知識推薦《pandas數(shù)據(jù)分析》一書的相關(guān)章節(jié)，需要的微信我，備注：分析

不必打賞

給我點個贊

就心滿意足了

長按下方二維碼加入 zhenguo 星球，獲取刷題筆記、打卡、優(yōu)質(zhì)學(xué)習(xí)資源等。

Pandas 實現(xiàn)數(shù)據(jù)預(yù)處理的 10 個小技能