日本成人三级91精品电影 ,精品国产久久久久,青青草视频激情,青娱乐亚洲精品视频在线观看,九色免费观看91,av天堂影视,久久久999,日韩无码精品国免

大家好，歡迎來到 Crossin的編程教室！

數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的重要步驟，常用的處理包括找出異常值、處理缺失值、過濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等。今天分享的這篇文章將介紹如何使用 pandas 解決這些最常見的預(yù)處理任務(wù)。

找出異常值常用兩種方法：

標(biāo)準(zhǔn)差法：異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
分位數(shù)法：小于 1/4分位數(shù)減去 1/4和3/4分位數(shù)差的1.5倍，大于3/4減去 1/4和3/4分位數(shù)差的1.5倍，都為異常值

技能1 ：標(biāo)準(zhǔn)差法

import pandas as pd

df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})

# 異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
meangrade = df['a'].mean()
stdgrade = df['a'].std()
toprange = meangrade + stdgrade * 1.96
botrange = meangrade - stdgrade * 1.96

# 過濾區(qū)間外的值
copydf = df
copydf = copydf.drop(copydf[copydf['a']
        > toprange].index)
copydf = copydf.drop(copydf[copydf['a']
        < botrange].index)
copydf

技能2：分位數(shù)法

q1 = df['a'].quantile(.25)
q3 = df['a'].quantile(.75)
iqr = q3-q1
toprange = q3 + iqr * 1.5
botrange = q1 - iqr * 1.5

copydf = df
copydf = copydf.drop(copydf[copydf['a']
        > toprange].index)
copydf = copydf.drop(copydf[copydf['a']
        < botrange].index)
copydf

技能3：處理空值

np.nan 是 pandas 中常見空值，使用 dropna 過濾空值，axis 0 表示按照行，1 表示按列，how 默認(rèn)為 any ，意思是只要有一個 nan 就過濾某行或某列，all 所有都為 nan

# axis 0 表示按照行，all 此行所有值都為 nan
df.dropna(axis=0, how='all')

技能4：充填空值

空值一般使用某個統(tǒng)計值填充，如平均數(shù)、眾數(shù)、中位數(shù)等，使用函數(shù) fillna:

# 使用a列平均數(shù)填充列的空值，inplace true表示就地填充
df["a"].fillna(df["a"].mean(), inplace=True)

技能5：修復(fù)不合適值

假如某門課最高分100，如果出現(xiàn) -2， 120 這樣的值，顯然不合理，使用布爾類型的Series對象修改數(shù)值：

df.loc[(df['a'] < -2,'a')] = 0
df.loc[(df['a'] >= 100,'a')] = 100

技能6：過濾重復(fù)值

過濾某列重復(fù)值，使用 drop_duplicated 方法，第一個參數(shù)為列名，keep關(guān)鍵字等于last：最后一次出現(xiàn)此值行：

df.drop_duplicates(['Names'], keep='last')

技能7：apply 元素級：去掉特殊字符

某列單元格含有特殊字符，如標(biāo)點符號，使用元素級操作方法 apply 干掉它們：

import string
exclude = set(string.punctuation)

def remove_punctuation(x):
    x = ''.join(ch for ch in x if ch not in exclude)
    return x
# 原df
Out[26]: 
      a       b
0   c,d  edc.rc
1     3       3
2  d ef       4

# 過濾a列標(biāo)點
In [27]: df.a = df.a.apply(remove_punctuation) 
In [28]: df                
Out[28]: 
      a       b
0    cd  edc.rc
1     3       3
2  d ef       4

技能8：cut 數(shù)據(jù)分箱

將百分制分?jǐn)?shù)轉(zhuǎn)為A,B,C,D四個等級，bins 被分為 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

# 生成20個[0,100]的隨機整數(shù)
In [30]: a = np.random.randint(1,100,20)                   
In [31]: a                                    
Out[31]: 
array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43])

# cut分箱
In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])             
Out[33]: 
[D, D, D, B, D, ..., D, A, A, D, D]
Length: 20
Categories (4, object): [D < C < B < A]

技能9：rank 排名

rank 方法，生成數(shù)值排名，ascending 為False，分值越大，排名越靠前：

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} )) 
In [53]: df['a'].rank(ascending=False)                   
Out[53]: 
0    4.0
1    2.0
2    1.0
3    3.0
4    5.0

技能10：category列轉(zhuǎn)數(shù)值

某列取值只可能為有限個枚舉值，往往需要轉(zhuǎn)為數(shù)值，使用get_dummies，或自己定義函數(shù)：

pd.get_dummies(df['a'])

自定義函數(shù)，結(jié)合 apply:

def c2n(x):
    if x=='A':
        return 95
    if x=='B':
        return 80

df['a'].apply(c2n)

以上就是利用 pandas 進行數(shù)據(jù)預(yù)處理的十個小任務(wù)。

如果文章對你有幫助，歡迎轉(zhuǎn)發(fā)/點贊/收藏~

作者：zhenguo

來源：Python與算法社區(qū)

_往期文章推薦_

Pandas清洗數(shù)據(jù)的4個實用小技巧

如需了解付費精品課程及教學(xué)答疑服務(wù)

請在Crossin的編程教室內(nèi)回復(fù): 666

Pandas數(shù)據(jù)預(yù)處理的10個小技能