10 個 Python 自動探索性數(shù)據(jù)分析神庫!
共 6731字,需瀏覽 14分鐘
·
2024-08-02 07:27
??我的小冊 45章教程:(小白零基礎(chǔ)用Python量化股票分析小冊) ,原價299,限時特價2杯咖啡,滿100人漲10元。
轉(zhuǎn)自:公眾號丨數(shù)據(jù)STUDIO
探索性數(shù)據(jù)分析是數(shù)據(jù)科學模型開發(fā)和數(shù)據(jù)集研究的重要組成部分之一。在拿到一個新數(shù)據(jù)集時首先就需要花費大量時間進行EDA來研究數(shù)據(jù)集中內(nèi)在的信息。自動化的EDA Python包可以用幾行Python代碼執(zhí)行EDA。
在本文中整理了10個可以自動執(zhí)行EDA并生成有關(guān)數(shù)據(jù)的見解的Python包,看看他們都有什么功能,能在多大程度上幫我們自動化解決EDA的需求。
-
DTale -
Pandas-profiling -
sweetviz -
autoviz -
dataprep -
KLib -
dabl -
speedML -
datatile -
edaviz
1、D-Tale
import dtale
import pandas as pd
dtale.show(pd.read_csv("titanic.csv"))
#Install the below libaries before importing
import pandas as pd
from pandas_profiling import ProfileReport
#EDA using pandas-profiling
profile = ProfileReport(pd.read_csv('titanic.csv'), explorative=True)
#Saving results to a HTML file
profile.to_file("output.html")
import pandas as pd
import sweetviz as sv
#EDA using Autoviz
sweet_report = sv.analyze(pd.read_csv("titanic.csv"))
#Saving results to HTML file
sweet_report.show_html('sweet_report.html')
import pandas as pd
from autoviz.AutoViz_Class import AutoViz_Class
#EDA using Autoviz
autoviz = AutoViz_Class().AutoViz('train.csv')
from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic.csv")
create_report(df).show_browser()
import klib
import pandas as pd
df = pd.read_csv('DATASET.csv')
klib.missingval_plot(df)
klib.corr_plot(df_cleaned, annot=False)
klib.dist_plot(df_cleaned['Win_Prob'])
klib.cat_plot(df, figsize=(50,15))
7、Dabl
-
目標分布圖 -
散點圖 -
線性判別分析
import pandas as pd
import dabl
df = pd.read_csv("titanic.csv")
dabl.plot(df, target_col="Survived")
8、Speedml
from speedml import Speedml
sml = Speedml('../input/train.csv', '../input/test.csv',
target = 'Survived', uid = 'PassengerId')
sml.train.head()
sml.plot.correlate()
sml.plot.distribute()
sml.plot.ordinal('Parch')
sml.plot.ordinal('SibSp')
sml.plot.continuous('Age')
9、DataTile
import pandas as pd
from datatile.summary.df import DataFrameSummary
df = pd.read_csv('titanic.csv')
dfs = DataFrameSummary(df)
dfs.summary()
10、edaviz
最后推薦一下我們團隊寫的量化小冊的內(nèi)容,45篇內(nèi)容!從Python安裝,入門,數(shù)據(jù)分析,爬取股票基金的歷史+實時數(shù)據(jù),以及如何寫一個簡單量化策略,策略回測,如何看資金曲線統(tǒng)統(tǒng)都有介紹!非常超值!
歡迎訂閱:原價299 早鳥價2杯咖啡錢,即可永久閱讀。滿400人又要漲價了,現(xiàn)在的價格非常非常低,只要2杯奶茶,就可以終身訂閱+課程源碼,還有永久陪伴群。48小時無理由退款,放心食用!
往期推薦
量化: 如何用Python爬取創(chuàng)業(yè)板歷史+實時股票數(shù)據(jù)!|實戰(zhàn)股票分析篇利用Pandas 9招挖掘五糧液股價!|實戰(zhàn)股票數(shù)據(jù)分析篇 Pandas滾動操作 |量化股票第一步,用Python畫股票K線,雙均線圖,可視化你的股票數(shù)據(jù)!|如何用Python爬取全部800多只ETF基金數(shù)據(jù)!|如何用Python寫一個雙均線策略 |如何用Python開發(fā)一個多策略機器人!上篇!|Python量化系列-用布林策略買五糧液能賺多少錢?|只要4秒鐘!用Python 獲取上證指數(shù)34年的歷史日線數(shù)據(jù)!
入門: 最全的零基礎(chǔ)學Python的問題 | 零基礎(chǔ)學了8個月的Python | 實戰(zhàn)項目 |學Python就是這條捷徑
干貨:爬取豆瓣短評,電影《后來的我們》 | 38年NBA最佳球員分析 | 從萬眾期待到口碑撲街!唐探3令人失望 | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個海量小姐姐素描圖 |碟中諜這么火,我用機器學習做個迷你推薦系統(tǒng)電影
趣味:彈球游戲 | 九宮格 | 漂亮的花 | 兩百行Python《天天酷跑》游戲!
AI: 會做詩的機器人 | 給圖片上色 | 預(yù)測收入 | 碟中諜這么火,我用機器學習做個迷你推薦系統(tǒng)電影
小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水印! | 一鍵把html網(wǎng)頁保存為pdf!| 再見PDF提取收費! | 用90行代碼打造最強PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r機票提示器! |60行代碼做了一個語音壁紙切換器天天看小
