<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Sidetable:一種高效的 Python 數(shù)據(jù)框處理工具!

          共 1448字,需瀏覽 3分鐘

           ·

          2021-12-15 19:36

          我們知道 Pandas 是數(shù)據(jù)科學社區(qū)中最流行的 Python 包,它包含許多函數(shù)和方法來分析和處理數(shù)據(jù)。盡管它的功能對于數(shù)據(jù)分析來說足夠有效,但定制的庫可以為 Pandas 帶來更多的價值。

          Sidetable 就是一個開源 Python 庫,它是一種可用于數(shù)據(jù)分析和探索的工具,作為 value_countscrosstab 的功能組合使用的。在本文中,我們將更多地討論和探索其功能。歡迎小伙伴們收藏學習、點贊支持。

          安裝

          可以使用從 PyPI 安裝 Sidetable

          pip?install?sidetable

          用法

          我們將使用從 Kaggle 下載的 Titanic 數(shù)據(jù)集來實現(xiàn)該庫。

          sidetable 的思想是減少數(shù)據(jù)分析所需的代碼行數(shù)并加快工作流程。對于任何數(shù)據(jù)集,都需要執(zhí)行一些數(shù)據(jù)分析任務,包括可視化特征分布、頻率計數(shù)、缺失記錄計數(shù)。

          我們將使用 Titanic 數(shù)據(jù)集詳細討論 Sidetable 庫的特性。

          1、freq()

          Pandas 提供了 value_counts() 函數(shù),用于計算特征的頻率計數(shù)。Pandas 可以計算分布計數(shù)和概率分布,但你可能希望更容易組合這些值。

          分布計數(shù)和概率分布可以結合使用,但需要大量的輸入和代碼記憶。

          對于 sidetable,使用 freq() 函數(shù)在一行Python代碼中實現(xiàn)它更簡單。你可以獲得累計總數(shù)、百分比和更大的靈活性。除此之外,還可以對多個列進行分組,以可視化已分組要素的分布。你還可以使用參數(shù) value 指定要素列,以指示分組的數(shù)據(jù)“sum”應基于特定列。

          2、Counts

          sidetable 中的 counts() 函數(shù)可以生成一個匯總表,該匯總表可用于確定你需要考慮為分類或數(shù)值的特征,以便進一步分析和建模。counts() 函數(shù)顯示特征的唯一值的數(shù)量以及最頻繁和最不頻繁的值。

          可以使用 exclude 和 include 參數(shù)從數(shù)據(jù)集中排除或包含特定數(shù)據(jù)類型。

          3、missing()

          sidetable 中 missing()函數(shù)生成一個匯總表,該匯總表按每列的總缺失值的計數(shù)和百分比顯示缺失記錄。

          4、subtotal()

          Sidetable 中 subtotal() 函數(shù)最適合與 Pandas 中的 group by 函數(shù)一起使用。它可用于計算數(shù)據(jù)幀分組的一個或多個級別的小計。

          subtotal()函數(shù)可以將其添加到分組數(shù)據(jù)的一個或多個級別。你需要首先使用groupby()函數(shù)對數(shù)據(jù)框進行分組,然后在每個級別添加一個小計。

          結論

          Sidetable 是一種高效且方便的工具,它結合了 Pandas 的 value_counts 和 crosstab,生成一個可解釋且易于理解的匯總表,還可用于提供分析結果。語法的簡單性使其成為用于數(shù)據(jù)分析和探索的更好的庫。



          干貨!20張最新可視化大屏模板,各行業(yè)數(shù)據(jù)直接套用(含源碼)


          實戰(zhàn)項目:基于機器學習的 Python 信用卡欺詐檢測!


          新增一本答疑書!臺大李宏毅《機器學習》2021課程撒花完結!


          長按或掃描下方二維碼,后臺回復:加群,可申請入群。一定要備注:入群+地點+學習/公司。例如:入群+上海+復旦。


          感謝你的分享、點贊、在看??

          瀏覽 44
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲大骚逼| 一本色道久久88综合精品看片 | 黄片免费视频 | 一本无码免费视频 | 人人要人人射 |