【數(shù)據(jù)競(jìng)賽】盤點(diǎn)Kaggle中常見(jiàn)的AutoEDA工具庫(kù)
在完成競(jìng)賽和數(shù)據(jù)挖掘的過(guò)程中,數(shù)據(jù)分析一直是非常耗時(shí)的一個(gè)環(huán)節(jié),但也是必要的一個(gè)環(huán)節(jié)。

Pandas Profiling
https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html
Pandas Profiling是款比較成熟的工具,可以直接傳入DataFrame即可完成分析過(guò)程,將結(jié)果展示為HTML格式,同時(shí)分析功能也比較強(qiáng)大。
功能:字段類型分析、變量分布分析、相關(guān)性分析、缺失值分析、重復(fù)行分析 耗時(shí):較少

AutoViz
https://github.com/AutoViML/AutoViz
AutoViz是款美觀的數(shù)據(jù)分析工具,在進(jìn)行可視化的同時(shí)將結(jié)果保存為圖片格式。
功能:相關(guān)性分析、數(shù)值變量箱線圖、數(shù)值變量分布圖 耗時(shí):較多

Dataprep
https://dataprep.ai/
Dataprep是款比較靈活也比較強(qiáng)大的工具,也是筆者最喜歡的。它可以指定列進(jìn)行分析,同時(shí)也可以在Notebook中進(jìn)行交互式分析。
功能:字段類型分析、變量分布分析、相關(guān)性分析、缺失值分析、交互式分析。 耗時(shí):較多

SweetViz
https://github.com/fbdesignpro/sweetviz
SweetViz是款強(qiáng)大的數(shù)據(jù)分析工具,可以很好的分析訓(xùn)練集和測(cè)試集,以及目標(biāo)標(biāo)簽與特征之間的關(guān)系。
功能:數(shù)據(jù)集對(duì)比分析、字段類型分析、變量分布分析、目標(biāo)變量分析 耗時(shí):中等

D-Tale
https://github.com/man-group/dtale
D-Tale是款功能最為強(qiáng)大的數(shù)據(jù)分析工具,對(duì)單變量的分析過(guò)程支持比較好。
功能:字段類型分析、變量分布分析、相關(guān)性分析、缺失值分析、交互式分析。 耗時(shí):中等

往期精彩回顧 本站qq群955171419,加入微信群請(qǐng)掃碼:
評(píng)論
圖片
表情
