<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Pandas數(shù)據(jù)預(yù)處理的10個小技能

          共 5262字,需瀏覽 11分鐘

           ·

          2021-05-20 13:26


          大家好,歡迎來到 Crossin的編程教室 !

          數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的重要步驟,常用的處理包括找出異常值、處理缺失值、過濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等。今天分享的這篇文章將介紹如何使用 pandas 解決這些最常見的預(yù)處理任務(wù)。

          找出異常值常用兩種方法:

          • 標(biāo)準(zhǔn)差法:異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
          • 分位數(shù)法:小于 1/4分位數(shù)減去 1/4和3/4分位數(shù)差的1.5倍,大于3/4減去 1/4和3/4分位數(shù)差的1.5倍,都為異常值

          技能1 :標(biāo)準(zhǔn)差法

          import pandas as pd

          df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})

          # 異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
          meangrade = df['a'].mean()
          stdgrade = df['a'].std()
          toprange = meangrade + stdgrade * 1.96
          botrange = meangrade - stdgrade * 1.96

          # 過濾區(qū)間外的值
          copydf = df
          copydf = copydf.drop(copydf[copydf['a']
                  > toprange].index)
          copydf = copydf.drop(copydf[copydf['a']
                  < botrange].index)
          copydf

          技能2:分位數(shù)法

          q1 = df['a'].quantile(.25)
          q3 = df['a'].quantile(.75)
          iqr = q3-q1
          toprange = q3 + iqr * 1.5
          botrange = q1 - iqr * 1.5

          copydf = df
          copydf = copydf.drop(copydf[copydf['a']
                  > toprange].index)
          copydf = copydf.drop(copydf[copydf['a']
                  < botrange].index)
          copydf
          技能3:處理空值

          np.nan 是 pandas 中常見空值,使用 dropna 過濾空值,axis 0 表示按照行,1 表示按列,how 默認(rèn)為 any ,意思是只要有一個 nan 就過濾某行或某列,all 所有都為 nan

          # axis 0 表示按照行,all 此行所有值都為 nan
          df.dropna(axis=0, how='all')

          技能4:充填空值

          空值一般使用某個統(tǒng)計值填充,如平均數(shù)、眾數(shù)、中位數(shù)等,使用函數(shù) fillna:

          # 使用a列平均數(shù)填充列的空值,inplace true表示就地填充
          df["a"].fillna(df["a"].mean(), inplace=True)

          技能5:修復(fù)不合適值

          假如某門課最高分100,如果出現(xiàn) -2, 120 這樣的值,顯然不合理,使用布爾類型的Series對象修改數(shù)值:

          df.loc[(df['a'] < -2,'a')] = 0
          df.loc[(df['a'] >= 100,'a')] = 100

          技能6:過濾重復(fù)值

          過濾某列重復(fù)值,使用 drop_duplicated 方法,第一個參數(shù)為列名,keep關(guān)鍵字等于last:最后一次出現(xiàn)此值行:

          df.drop_duplicates(['Names'], keep='last')

          技能7:apply 元素級:去掉特殊字符

          某列單元格含有特殊字符,如標(biāo)點符號,使用元素級操作方法 apply 干掉它們:

          import string
          exclude = set(string.punctuation)

          def remove_punctuation(x):
              x = ''.join(ch for ch in x if ch not in exclude)
              return x
          # 原df
          Out[26]: 
                a       b
          0   c,d  edc.rc
          1     3       3
          2  d ef       4

          # 過濾a列標(biāo)點
          In [27]: df.a = df.a.apply(remove_punctuation) 
          In [28]: df                
          Out[28]: 
                a       b
          0    cd  edc.rc
          1     3       3
          2  d ef       4

          技能8:cut 數(shù)據(jù)分箱

          將百分制分?jǐn)?shù)轉(zhuǎn)為A,B,C,D四個等級,bins 被分為 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:

          # 生成20個[0,100]的隨機整數(shù)
          In [30]: a = np.random.randint(1,100,20)                   
          In [31]: a                                    
          Out[31]: 
          array([4822468413523635279931371531,  54698,996043])

          # cut分箱
          In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D''C''B''A'])             
          Out[33]: 
          [D, D, D, B, D, ..., D, A, A, D, D]
          Length: 20
          Categories (4, object): [D < C < B < A]
          技能9:rank 排名

          rank 方法,生成數(shù)值排名,ascending 為False,分值越大,排名越靠前:

          In [36]: df = pd.DataFrame({'a':[4698,996043]} )) 
          In [53]: df['a'].rank(ascending=False)                   
          Out[53]: 
          0    4.0
          1    2.0
          2    1.0
          3    3.0
          4    5.0

          技能10:category列轉(zhuǎn)數(shù)值

          某列取值只可能為有限個枚舉值,往往需要轉(zhuǎn)為數(shù)值,使用get_dummies,或自己定義函數(shù):

          pd.get_dummies(df['a'])

          自定義函數(shù),結(jié)合 apply:

          def c2n(x):
              if x=='A':
                  return 95
              if x=='B':
                  return 80

          df['a'].apply(c2n)

          以上就是利用 pandas 進行數(shù)據(jù)預(yù)處理的十個小任務(wù)。

          如果文章對你有幫助,歡迎轉(zhuǎn)發(fā)/點贊/收藏~

          作者:zhenguo

          來源:Python與算法社區(qū)


          _往期文章推薦_

          Pandas清洗數(shù)據(jù)的4個實用小技巧




          如需了解付費精品課程教學(xué)答疑服務(wù)
          請在Crossin的編程教室內(nèi)回復(fù): 666

          瀏覽 52
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕一区二区三区四虎在线 | 看毛片网址 | 免费观看无码视频 | 中曰韩一级片 | 天堂网wwww |