<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          簡單好用,分享 4 款 Pandas 自動數(shù)據(jù)分析神器!

          共 2337字,需瀏覽 5分鐘

           ·

          2022-01-10 10:32

          我們做數(shù)據(jù)分析,在第一次拿到數(shù)據(jù)集的時候,一般會用統(tǒng)計(jì)學(xué)或可視化方法來了解原始數(shù)據(jù)。

          了解列數(shù)、行數(shù)、取值分布、缺失值、列之間的相關(guān)關(guān)系等等,這個過程叫做?EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)。

          如果你現(xiàn)在做EDA還在用pandas一行行寫代碼,那么福音來了!

          目前已經(jīng)有很多EDA工具可以自動產(chǎn)出基礎(chǔ)的統(tǒng)計(jì)數(shù)據(jù)和圖表,能為我們節(jié)省大量時間。

          本文會對比介紹 4 款常用的EDA工具,最后一款絕了,完全是拋棄代碼的節(jié)奏。

          正式介紹這些工具之前,先來加載數(shù)據(jù)集

          import?numpy?as?np
          import?pandas?as?pd
          iris?=?pd.read_csv('iris.csv')
          iris

          iris是下面用到的數(shù)據(jù)集,是一個150行 * 4列的 DataFrame。

          1. PandasGUI

          PandasGUI提供數(shù)據(jù)預(yù)覽、篩選、統(tǒng)計(jì)、多種圖表展示以及數(shù)據(jù)轉(zhuǎn)換。

          #?安裝
          #?pip?install?pandasgui
          from?pandasgui?import?show

          show(iris)
          PandasGUI操作界面

          PandasGUI更側(cè)重?cái)?shù)據(jù)展示,提供了10多種圖表,通過可視的方式配置。

          但數(shù)據(jù)統(tǒng)計(jì)做的比較簡單,沒有提供缺失值、相關(guān)系數(shù)等指標(biāo),數(shù)據(jù)轉(zhuǎn)換部分也只開放了一小部分接口。

          2. Pandas Profiling

          Pandas Profiling?提供了整體數(shù)據(jù)概況、每列的詳情、列之間的關(guān)圖、列之間的相關(guān)系數(shù)。

          #?安裝:
          #?pip?install?-U?pandas-profiling
          #?jupyter?nbextension?enable?--py?widgetsnbextension

          from?pandas_profiling?import?ProfileReport

          profile?=?ProfileReport(iris,?title='iris?Pandas?Profiling?Report',?explorative=True)
          profile
          Pandas Profiling操作界面

          每列的詳情包括:缺失值統(tǒng)計(jì)、去重計(jì)數(shù)、最值、平均值等統(tǒng)計(jì)指標(biāo)和取值分布的柱狀圖。

          列之間的相關(guān)系數(shù)支持Spearman、Pearson、Kendall 和 Phik 4 種相關(guān)系數(shù)算法。

          與?PandasGUI?相反,Pandas Profiling沒有豐富的圖表,但提供了非常多的統(tǒng)計(jì)指標(biāo)以及相關(guān)系數(shù)。

          3. Sweetviz

          SweetvizPandas Profiling類似,提供了每列詳細(xì)的統(tǒng)計(jì)指標(biāo)、取值分布、缺失值統(tǒng)計(jì)以及列之間的相關(guān)系數(shù)。

          #?安裝
          #?pip?install?sweetviz

          import?sweetviz?as?sv

          sv_report?=?sv.analyze(iris)
          sv_report.show_html()
          Sweetviz操作界面

          Sweetviz還有有一個非常好的特性是支持不同數(shù)據(jù)集的對比,如:訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的對比。

          Sweetviz數(shù)據(jù)集對比

          藍(lán)色和橙色代表不同的數(shù)據(jù)集,通過對比可以清晰發(fā)現(xiàn)數(shù)據(jù)集之前的差異。

          4. dtale

          最后重磅介紹dtale,它不僅提供豐富圖表展示數(shù)據(jù),還提供了很多交互式的接口,對數(shù)據(jù)進(jìn)行操作、轉(zhuǎn)換。

          dtale操作界面

          dtale的功能主要分為三部分:數(shù)據(jù)操作數(shù)據(jù)可視化高亮顯示

          4.1 數(shù)據(jù)操作(Actions)

          dtalepandas的函數(shù)包裝成可視化接口,可以讓我們通過圖形界面方式來操作數(shù)據(jù)。

          #?pip?install?dtale

          import?dtale

          d?=?dtale.show(iris)
          d.open_browser()
          Actions

          右半部分圖是左邊圖的中文翻譯,用的是 Chrome 自動翻譯,有些不是很準(zhǔn)確。

          舉一個數(shù)據(jù)操作的例子。

          Summarize Data

          上圖是Actions菜單中Summarize Data的功能,它提供了對數(shù)據(jù)集匯總操作的接口。

          上圖我們選擇按照species列分組,計(jì)算sepal_width列的平均值,同時可以看到左下角dtale已經(jīng)自動為該操作生成了pandas代碼。

          4.2 數(shù)據(jù)可視化(Visualize)

          提供比較豐富的圖表,對每列數(shù)據(jù)概況、重復(fù)行、缺失值、相關(guān)系數(shù)進(jìn)行統(tǒng)計(jì)和展示。

          Visualize

          舉一個數(shù)據(jù)可視化的例子。

          Describe

          上圖是Visualize菜單中Describe的功能,它可以統(tǒng)計(jì)每列的最值、均值、標(biāo)準(zhǔn)差等指標(biāo),并提供圖表展示。

          右側(cè)的Code Export可以查看生成這些數(shù)據(jù)的代碼。

          4.3 高亮顯示(Highlight)

          對缺失值、異常值做高亮顯示,方便我們快速定位到異常的數(shù)據(jù)。

          Highlight

          上圖顯示了將sepal_width字段的異常值。

          dtale非常強(qiáng)大,功能也非常多,大家可以多多探索、挖掘。

          最后,簡單總結(jié)一下。如果探索的數(shù)據(jù)集側(cè)重?cái)?shù)據(jù)展示,可以選PandasGUI;如果只是簡單了解基本統(tǒng)計(jì)指標(biāo),可以選擇Pandas ProfilingSweetviz;如果需要做深度的數(shù)據(jù)探索,那就選擇dtale

          往期精彩回顧
          數(shù)據(jù)分析八大模型:人貨場模型
          數(shù)據(jù)分析八大模型:OGSM模型
          數(shù)據(jù)分析八大模型:詳解PEST模型
          一文看懂:用戶分析體系該如何搭建
          一文看懂:搭建活動分析體系
          一文看懂:如何搭建經(jīng)營分析體系

          點(diǎn)擊“閱讀原文”可了解更多知識星球

          瀏覽 43
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美VA视频 | 一本色道综合久久欧美日韩精品 | 国产AV资源 | 久久91蜜桃人妻无码系列 | 国产大黑鸡巴 |