【Python】懶人專用數(shù)據(jù)競賽工具包!
共 2980字,需瀏覽 6分鐘
·
2024-07-28 12:00
作者:Klib
懶人專用數(shù)據(jù)競賽工具包-Klib
懶人專用數(shù)據(jù)競賽工具包-Klib
簡介
klib 是一個用于導入、清理、分析和預處理數(shù)據(jù)的Python庫。
1. 自動進行數(shù)據(jù)質(zhì)量評估
-
直接使用klib的缺失值統(tǒng)計函數(shù)進行數(shù)據(jù)質(zhì)量評估。
import klib
import pandas as pd
df = pd.read_csv("NFL_DATASET.csv")
klib.missingval_plot(df)
2. 數(shù)據(jù)清洗
-
清理列名(colume name):通過格式化、拆分等方式統(tǒng)一列名,將CamelCase轉(zhuǎn)換為camel_case,移除特殊字符以及前導和尾隨空格,并將所有列名格式化為小寫和下劃線分隔。這還會檢查和修復重復的列名,有時從文件中讀取數(shù)據(jù)時會出現(xiàn)這種情況。 -
刪除空列和幾乎空列:可以使用參數(shù)drop_threshold_cols和drop_threshold_rows來調(diào)整刪除操作以滿足您的需求。默認情況下,會刪除具有超過90%缺失值的列和行。 -
刪除只有一個值的列:刪除其中每個單元格都包含相同值的列。 -
刪除重復的行:這是一個簡單的丟棄完全重復行的操作。如果你處理的數(shù)據(jù)中重復行有價值,可以考慮將 drop_duplicates=False。 -
減少內(nèi)存占用,從而加快工作流程中后續(xù)步驟的速度,klib.data_cleaning() 還會優(yōu)化數(shù)據(jù)類型
df_cleaned = klib.data_cleaning(df)
3.數(shù)據(jù)分析
3.1 相關性分析
使用klib.corr_plot()等函數(shù),將拆分參數(shù)設置為“pos”、“neg”、“high”或“l(fā)ow”,并在需要時結(jié)合閾值,讓我們能夠深入挖掘并突出顯示最重要的方面。
3.2 類別特征分析
klib.cat_plot(df_cleaned)
小結(jié)
Klib極大地方便了數(shù)據(jù)清洗和可視化工作,當然Klib具有比我們上面所描述的更多功能和設置。有興趣的朋友可以參考對應的文檔。
參考文獻
-
https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80 -
https://github.com/attractivechaos/klib -
https://pypi.org/project/klib/
往期精彩回顧
交流群
歡迎加入機器學習愛好者微信群一起和同行交流,目前有機器學習交流群、博士群、博士申報交流、CV、NLP等微信群,請掃描下面的微信號加群,備注:”昵稱-學校/公司-研究方向“,例如:”張小明-浙大-CV“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~(也可以加入機器學習交流qq群772479961)
評論
圖片
表情
