10 個 Python 自動探索性數(shù)據(jù)分析神庫!
共 5969字,需瀏覽 12分鐘
·
2024-07-16 09:00
轉(zhuǎn)自:公眾號丨數(shù)據(jù)STUDIO
探索性數(shù)據(jù)分析是數(shù)據(jù)科學模型開發(fā)和數(shù)據(jù)集研究的重要組成部分之一。在拿到一個新數(shù)據(jù)集時首先就需要花費大量時間進行EDA來研究數(shù)據(jù)集中內(nèi)在的信息。自動化的EDA Python包可以用幾行Python代碼執(zhí)行EDA。
在本文中整理了10個可以自動執(zhí)行EDA并生成有關(guān)數(shù)據(jù)的見解的Python包,看看他們都有什么功能,能在多大程度上幫我們自動化解決EDA的需求。
-
DTale -
Pandas-profiling -
sweetviz -
autoviz -
dataprep -
KLib -
dabl -
speedML -
datatile -
edaviz
1、D-Tale
import dtale
import pandas as pd
dtale.show(pd.read_csv("titanic.csv"))
#Install the below libaries before importing
import pandas as pd
from pandas_profiling import ProfileReport
#EDA using pandas-profiling
profile = ProfileReport(pd.read_csv('titanic.csv'), explorative=True)
#Saving results to a HTML file
profile.to_file("output.html")
import pandas as pd
import sweetviz as sv
#EDA using Autoviz
sweet_report = sv.analyze(pd.read_csv("titanic.csv"))
#Saving results to HTML file
sweet_report.show_html('sweet_report.html')
import pandas as pd
from autoviz.AutoViz_Class import AutoViz_Class
#EDA using Autoviz
autoviz = AutoViz_Class().AutoViz('train.csv')
from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic.csv")
create_report(df).show_browser()
import klib
import pandas as pd
df = pd.read_csv('DATASET.csv')
klib.missingval_plot(df)
klib.corr_plot(df_cleaned, annot=False)
klib.dist_plot(df_cleaned['Win_Prob'])
klib.cat_plot(df, figsize=(50,15))
7、Dabl
-
目標分布圖 -
散點圖 -
線性判別分析
import pandas as pd
import dabl
df = pd.read_csv("titanic.csv")
dabl.plot(df, target_col="Survived")
8、Speedml
from speedml import Speedml
sml = Speedml('../input/train.csv', '../input/test.csv',
target = 'Survived', uid = 'PassengerId')
sml.train.head()
sml.plot.correlate()
sml.plot.distribute()
sml.plot.ordinal('Parch')
sml.plot.ordinal('SibSp')
sml.plot.continuous('Age')
9、DataTile
import pandas as pd
from datatile.summary.df import DataFrameSummary
df = pd.read_csv('titanic.csv')
dfs = DataFrameSummary(df)
dfs.summary()
10、edaviz

推薦小碼哥新書!
小碼哥新手《Python + Excel/Word/PPT一本通》正式上市了!書中詳細介紹了零基礎(chǔ)用Python實現(xiàn)辦公自動化的各方面知識,提高職場辦公效率,附贈PPT/源代碼/重點教學視頻講解和作者VIP一對一指導(dǎo)。
內(nèi)容介紹:《Python + Excel/Word/PPT 一本通》內(nèi)容介紹

掃碼購買
▼點擊閱讀原文,了解本書詳情
評論
圖片
表情
