<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【Python】懶人專用數(shù)據(jù)競賽工具包!

          共 2980字,需瀏覽 6分鐘

           ·

          2024-07-28 12:00

          作者:Klib

          懶人專用數(shù)據(jù)競賽工具包-Klib


          簡介

          klib 是一個用于導入、清理、分析和預處理數(shù)據(jù)的Python庫。

          1. 自動進行數(shù)據(jù)質(zhì)量評估

          • 直接使用klib的缺失值統(tǒng)計函數(shù)進行數(shù)據(jù)質(zhì)量評估。
          import klib
          import pandas as pd

          df = pd.read_csv("NFL_DATASET.csv")
          klib.missingval_plot(df)

          2. 數(shù)據(jù)清洗

          1. 清理列名(colume name):通過格式化、拆分等方式統(tǒng)一列名,將CamelCase轉(zhuǎn)換為camel_case,移除特殊字符以及前導和尾隨空格,并將所有列名格式化為小寫和下劃線分隔。這還會檢查和修復重復的列名,有時從文件中讀取數(shù)據(jù)時會出現(xiàn)這種情況。
          2. 刪除空列和幾乎空列:可以使用參數(shù)drop_threshold_cols和drop_threshold_rows來調(diào)整刪除操作以滿足您的需求。默認情況下,會刪除具有超過90%缺失值的列和行。
          3. 刪除只有一個值的列:刪除其中每個單元格都包含相同值的列。
          4. 刪除重復的行:這是一個簡單的丟棄完全重復行的操作。如果你處理的數(shù)據(jù)中重復行有價值,可以考慮將 drop_duplicates=False。
          5. 減少內(nèi)存占用,從而加快工作流程中后續(xù)步驟的速度,klib.data_cleaning() 還會優(yōu)化數(shù)據(jù)類型
          df_cleaned = klib.data_cleaning(df)

          3.數(shù)據(jù)分析

          3.1 相關性分析

          使用klib.corr_plot()等函數(shù),將拆分參數(shù)設置為“pos”、“neg”、“high”或“l(fā)ow”,并在需要時結(jié)合閾值,讓我們能夠深入挖掘并突出顯示最重要的方面。

          3.2 類別特征分析

          klib.cat_plot(df_cleaned)

          小結(jié)

          Klib極大地方便了數(shù)據(jù)清洗和可視化工作,當然Klib具有比我們上面所描述的更多功能和設置。有興趣的朋友可以參考對應的文檔。

          參考文獻

          1. https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80
          2. https://github.com/attractivechaos/klib
          3. https://pypi.org/project/klib/

             
                
                    
                       
          往期精彩回顧




          • 交流群

          歡迎加入機器學習愛好者微信群一起和同行交流,目前有機器學習交流群、博士群、博士申報交流、CV、NLP等微信群,請掃描下面的微信號加群,備注:”昵稱-學校/公司-研究方向“,例如:”張小明-浙大-CV“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~(也可以加入機器學習交流qq群772479961


          瀏覽 43
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级一级爱爱 | 伊人久久成人免费视频 | 性色网站| 黄色电影中文字幕在线观看 | 特级毛片熟女 |