這4款數(shù)據(jù)自動(dòng)化探索 Python 神器,解決99%的數(shù)據(jù)分析問題!
探索性數(shù)據(jù)分析是一種非常重要的數(shù)據(jù)探索技術(shù),用于了解數(shù)據(jù)的各個(gè)方面,這是執(zhí)行任何機(jī)器學(xué)習(xí)或深度學(xué)習(xí)任務(wù)之前最重要的步驟之一。
探索性數(shù)據(jù)分析可以幫助識(shí)別明顯的錯(cuò)誤,區(qū)分?jǐn)?shù)據(jù)集中的異常,發(fā)現(xiàn)重要元素,發(fā)現(xiàn)內(nèi)部信息的設(shè)計(jì)并提供新的知識(shí)。
背景
在任何機(jī)器學(xué)習(xí)項(xiàng)目的生命周期中,我們?cè)跀?shù)據(jù)分析、特征選擇、特征工程等環(huán)節(jié)耗費(fèi)時(shí)間占整個(gè)項(xiàng)目的 60% 的以上,一方面它是數(shù)據(jù)科學(xué)項(xiàng)目中最重要的部分,另一方面它是必須要進(jìn)行的,比如清理數(shù)據(jù)、處理缺失值、處理異常值、處理不平衡的數(shù)據(jù)集、等等,高效完成數(shù)據(jù)探索任務(wù)勢在必行。
自動(dòng)化探索性數(shù)據(jù)分析
今天我給大家分享4款自動(dòng)化探索數(shù)據(jù)分析的頂級(jí) Python 庫,列表如下:
dtale pandas profiling sweetviz autoviz
1、D-tale
D-tale 是一個(gè)在 2020 年 2 月推出的庫,可讓我們輕松可視化 pandas 數(shù)據(jù)框。它具有許多功能,對(duì)于探索性數(shù)據(jù)分析非常方便、支持交互式繪圖、3d 繪圖、熱圖、特征之間的相關(guān)性、構(gòu)建自定義列等等。
安裝
pip?install?dtale
首先,我們分享一個(gè) d-tale 的案例
import?dtale
import?pandas?as?pd
df?=?pd.read_csv("data.csv")
d?=?dtale.show(df)
d.open_browser()
上述代碼的輸出如下所示:
它提供許多選項(xiàng),例如對(duì)數(shù)據(jù)進(jìn)行排序、描述數(shù)據(jù)集、列分析等等,也可以自行查看此功能。
如果單擊"Describe",則會(huì)顯示所選列的統(tǒng)計(jì)分析,例如平均值、中位數(shù)、最大值、最小值方差、標(biāo)準(zhǔn)差、四分位數(shù)等等。
也可以自行嘗試其他功能,例如列分析、格式、過濾器。
如何相互關(guān)聯(lián)呢?
圖表 - 建立自定義圖表,如折線圖、條形圖、餅圖、堆疊圖、散點(diǎn)圖、地質(zhì)圖等。
這個(gè)工具非常方便,與使用傳統(tǒng)的機(jī)器學(xué)習(xí)庫(如 pandas、matplotlib 等)相比,它探索性數(shù)據(jù)分析更快。
2、Pandas Profiling
它是一個(gè)用 python 編寫的開源庫,生成交互式 HTML 報(bào)告并描述數(shù)據(jù)集的各個(gè)方面。關(guān)鍵功能包括處理缺失值、數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)(如平均值、眾數(shù)、中位數(shù)、偏度、標(biāo)準(zhǔn)差等),以及直方圖和相關(guān)性等圖表。
安裝
pip?install?pandas-profiling
讓我們深入研究使用這個(gè)庫的探索性數(shù)據(jù)分析。使用示例數(shù)據(jù)集從 pandas 分析開始:
#importing?required?packages
import?pandas?as?pd
import?pandas_profiling
import?numpy?as?np
#importing?the?data
df?=?pd.read_csv('sample.csv')
#descriptive?statistics
pandas_profiling.ProfileReport(df)
下面是上述代碼輸出
這是一個(gè)數(shù)據(jù)分析報(bào)告,它返回?cái)?shù)據(jù)集中的變量數(shù)量、行數(shù)、數(shù)據(jù)集中缺失的單元格、缺失單元格的百分比、重復(fù)行的數(shù)量和百分比。缺失和重復(fù)的單元格數(shù)據(jù)對(duì)于我們的分析非常重要,因?yàn)樗枋隽藬?shù)據(jù)集的更廣泛情況。該報(bào)告還顯示內(nèi)存的總大小。
變量部分顯示特定列的分析。例如對(duì)于分類變量,將出現(xiàn)以下輸出
它提供對(duì)數(shù)值變量的深入分析,例如分位數(shù)、均值、中位數(shù)和、方差、單調(diào)性、范圍、峰度、四分位間距等等。
描述變量如何相互關(guān)聯(lián),這些數(shù)據(jù)對(duì)于數(shù)據(jù)科學(xué)家來說是非常必要的。
3、Sweetviz
Sweetviz 是一個(gè)開源的 Python 庫,用于獲得可視化效果,只需幾行代碼即可用于探索性數(shù)據(jù)分析。該庫可用于可視化變量和比較數(shù)據(jù)集。
安裝
pip?install?sweetviz
讓我們深入研究使用這個(gè)庫的探索性數(shù)據(jù)分析,使用示例數(shù)據(jù)集開始
import?sweetviz
import?pandas?as?pd
df?=?pd.read_csv('sample.csv')
my_report??=?sweetviz.analyze([df,'Train'],?target_feat='SalePrice')
my_report.show_html('FinalReport.html')

4、Autoviz
Autoviz 代表自動(dòng)可視化,只需幾行代碼,就可以使用任意大小的數(shù)據(jù)集進(jìn)行可視化。
安裝
pip?install?autoviz
可視化
from?autoviz.AutoViz_Class?import?AutoViz_Class
AV?=?AutoViz_Class()
df?=?AV.AutoViz('sample.csv')



我們的文章到此就結(jié)束啦~記得點(diǎn)贊
如何找到我:
