<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          這4款數(shù)據(jù)自動(dòng)化探索 Python 神器,解決99%的數(shù)據(jù)分析問(wèn)題!

          共 2179字,需瀏覽 5分鐘

           ·

          2022-04-20 19:39

          關(guān)注"Python學(xué)習(xí)與數(shù)據(jù)挖掘"

          設(shè)為“置頂或星標(biāo)”,第一時(shí)間送達(dá)干貨

          資料專欄

          李航老師《統(tǒng)計(jì)學(xué)習(xí)方法(第二版)》課件&代碼

          【視頻+PPT】李宏毅老師機(jī)器學(xué)習(xí)40講

          探索性數(shù)據(jù)分析是一種非常重要的數(shù)據(jù)探索技術(shù),用于了解數(shù)據(jù)的各個(gè)方面,這是執(zhí)行任何機(jī)器學(xué)習(xí)或深度學(xué)習(xí)任務(wù)之前最重要的步驟之一。

          探索性數(shù)據(jù)分析可以幫助識(shí)別明顯的錯(cuò)誤,區(qū)分?jǐn)?shù)據(jù)集中的異常,發(fā)現(xiàn)重要元素,發(fā)現(xiàn)內(nèi)部信息的設(shè)計(jì)并提供新的知識(shí)。

          背景

          在任何機(jī)器學(xué)習(xí)項(xiàng)目的生命周期中,我們?cè)跀?shù)據(jù)分析、特征選擇、特征工程等環(huán)節(jié)耗費(fèi)時(shí)間占整個(gè)項(xiàng)目的 60% 的以上,一方面它是數(shù)據(jù)科學(xué)項(xiàng)目中最重要的部分,另一方面它是必須要進(jìn)行的,比如清理數(shù)據(jù)、處理缺失值、處理異常值、處理不平衡的數(shù)據(jù)集、等等,高效完成數(shù)據(jù)探索任務(wù)勢(shì)在必行。

          自動(dòng)化探索性數(shù)據(jù)分析

          今天我給大家分享4款自動(dòng)化探索數(shù)據(jù)分析的頂級(jí) Python 庫(kù),列表如下:

          • dtale
          • pandas profiling
          • sweetviz
          • autoviz
          1、D-tale

          D-tale 是一個(gè)在 2020 年 2 月推出的庫(kù),可讓我們輕松可視化 pandas 數(shù)據(jù)框。它具有許多功能,對(duì)于探索性數(shù)據(jù)分析非常方便、支持交互式繪圖、3d 繪圖、熱圖、特征之間的相關(guān)性、構(gòu)建自定義列等等。

          安裝

          pip?install?dtale

          首先,我們分享一個(gè) d-tale 的案例

          import?dtale
          import?pandas?as?pd
          df?=?pd.read_csv("data.csv")
          d?=?dtale.show(df)
          d.open_browser()

          上述代碼的輸出如下所示:它提供許多選項(xiàng),例如對(duì)數(shù)據(jù)進(jìn)行排序、描述數(shù)據(jù)集、列分析等等,也可以自行查看此功能。如果單擊"Describe",則會(huì)顯示所選列的統(tǒng)計(jì)分析,例如平均值、中位數(shù)、最大值、最小值方差、標(biāo)準(zhǔn)差、四分位數(shù)等等。也可以自行嘗試其他功能,例如列分析、格式、過(guò)濾器。如何相互關(guān)聯(lián)呢?圖表 - 建立自定義圖表,如折線圖、條形圖、餅圖、堆疊圖、散點(diǎn)圖、地質(zhì)圖等。這個(gè)工具非常方便,與使用傳統(tǒng)的機(jī)器學(xué)習(xí)庫(kù)(如 pandas、matplotlib 等)相比,它探索性數(shù)據(jù)分析更快。

          2、Pandas Profiling

          它是一個(gè)用 python 編寫的開源庫(kù),生成交互式 HTML 報(bào)告并描述數(shù)據(jù)集的各個(gè)方面。關(guān)鍵功能包括處理缺失值、數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)(如平均值、眾數(shù)、中位數(shù)、偏度、標(biāo)準(zhǔn)差等),以及直方圖和相關(guān)性等圖表。

          安裝

          pip?install?pandas-profiling

          讓我們深入研究使用這個(gè)庫(kù)的探索性數(shù)據(jù)分析。使用示例數(shù)據(jù)集從 pandas 分析開始:

          #importing?required?packages
          import?pandas?as?pd
          import?pandas_profiling
          import?numpy?as?np

          #importing?the?data
          df?=?pd.read_csv('sample.csv')

          #descriptive?statistics
          pandas_profiling.ProfileReport(df)

          下面是上述代碼輸出

          這是一個(gè)數(shù)據(jù)分析報(bào)告,它返回?cái)?shù)據(jù)集中的變量數(shù)量、行數(shù)、數(shù)據(jù)集中缺失的單元格、缺失單元格的百分比、重復(fù)行的數(shù)量和百分比。缺失和重復(fù)的單元格數(shù)據(jù)對(duì)于我們的分析非常重要,因?yàn)樗枋隽藬?shù)據(jù)集的更廣泛情況。該報(bào)告還顯示內(nèi)存的總大小。

          變量部分顯示特定列的分析。例如對(duì)于分類變量,將出現(xiàn)以下輸出它提供對(duì)數(shù)值變量的深入分析,例如分位數(shù)、均值、中位數(shù)和、方差、單調(diào)性、范圍、峰度、四分位間距等等。

          描述變量如何相互關(guān)聯(lián),這些數(shù)據(jù)對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)是非常必要的。

          3、Sweetviz

          Sweetviz 是一個(gè)開源的 Python 庫(kù),用于獲得可視化效果,只需幾行代碼即可用于探索性數(shù)據(jù)分析。該庫(kù)可用于可視化變量和比較數(shù)據(jù)集。

          安裝

          pip?install?sweetviz

          讓我們深入研究使用這個(gè)庫(kù)的探索性數(shù)據(jù)分析,使用示例數(shù)據(jù)集開始

          import?sweetviz
          import?pandas?as?pd
          df?=?pd.read_csv('sample.csv')
          my_report??=?sweetviz.analyze([df,'Train'],?target_feat='SalePrice')
          my_report.show_html('FinalReport.html')
          4、Autoviz

          Autoviz 代表自動(dòng)可視化,只需幾行代碼,就可以使用任意大小的數(shù)據(jù)集進(jìn)行可視化。安裝

          pip?install?autoviz

          可視化

          from?autoviz.AutoViz_Class?import?AutoViz_Class
          AV?=?AutoViz_Class()
          df?=?AV.AutoViz('sample.csv')

          長(zhǎng)按或掃描下方二維碼,后臺(tái)回復(fù):加群,即可申請(qǐng)入群。一定要備注:來(lái)源+研究方向+學(xué)校/公司,否則不拉入群中,見諒!

          長(zhǎng)按三秒,進(jìn)入后臺(tái)


          推薦閱讀

          瀏覽 76
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费日韩在线三级黄色电影网址 | 69视频在线免费看 | 日日干夜夜拍 | 人人操黄色片段 | 午夜极品人妻 |