作者：Klib

懶人專用數(shù)據(jù)競賽工具包-Klib

簡介

klib 是一個用于導入、清理、分析和預處理數(shù)據(jù)的Python庫。

1. 自動進行數(shù)據(jù)質(zhì)量評估

直接使用klib的缺失值統(tǒng)計函數(shù)進行數(shù)據(jù)質(zhì)量評估。

import klib
import pandas as pd

df = pd.read_csv("NFL_DATASET.csv")
klib.missingval_plot(df)

2. 數(shù)據(jù)清洗

清理列名(colume name)：通過格式化、拆分等方式統(tǒng)一列名，將CamelCase轉(zhuǎn)換為camel_case，移除特殊字符以及前導和尾隨空格，并將所有列名格式化為小寫和下劃線分隔。這還會檢查和修復重復的列名，有時從文件中讀取數(shù)據(jù)時會出現(xiàn)這種情況。
刪除空列和幾乎空列：可以使用參數(shù)drop_threshold_cols和drop_threshold_rows來調(diào)整刪除操作以滿足您的需求。默認情況下，會刪除具有超過90%缺失值的列和行。
刪除只有一個值的列：刪除其中每個單元格都包含相同值的列。
刪除重復的行：這是一個簡單的丟棄完全重復行的操作。如果你處理的數(shù)據(jù)中重復行有價值，可以考慮將 drop_duplicates=False。
減少內(nèi)存占用，從而加快工作流程中后續(xù)步驟的速度，klib.data_cleaning() 還會優(yōu)化數(shù)據(jù)類型

df_cleaned = klib.data_cleaning(df)

3.數(shù)據(jù)分析

3.1 相關性分析

使用klib.corr_plot()等函數(shù)，將拆分參數(shù)設置為“pos”、“neg”、“high”或“l(fā)ow”，并在需要時結(jié)合閾值，讓我們能夠深入挖掘并突出顯示最重要的方面。

3.2 類別特征分析

klib.cat_plot(df_cleaned)

小結(jié)

Klib極大地方便了數(shù)據(jù)清洗和可視化工作，當然Klib具有比我們上面所描述的更多功能和設置。有興趣的朋友可以參考對應的文檔。

參考文獻

https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80
https://github.com/attractivechaos/klib
https://pypi.org/project/klib/

      
       
      
      
       
                  
           
                         
              
               
                
                 
                  往期精彩回顧
                 
                
               
              
             
             
              
               
                
                 

                
                
                 
                  

                 
                 
                  

                 
                
                
                 

                
               
              
              
               
                
                 適合初學者入門人工智能的路線及資料下載
                
               
                
                 (圖文+視頻)機器學習入門系列下載
                
               
                
                 機器學習及深度學習筆記等資料打印
                
               
                
                 《統(tǒng)計學習方法》的代碼復現(xiàn)專輯

```
交流群
```

歡迎加入機器學習愛好者微信群一起和同行交流，目前有機器學習交流群、博士群、博士申報交流、CV、NLP等微信群，請掃描下面的微信號加群，備注：”昵稱-學校/公司-研究方向“，例如：”張小明-浙大-CV“。請按照格式備注，否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告，否則會請出群，謝謝理解~（也可以加入機器學習交流qq群772479961）

【Python】懶人專用數(shù)據(jù)競賽工具包！

作者：Klib 懶人專用數(shù)據(jù)競賽工具包-Klib

簡介