2000字精華總結(jié),安利一個超好用的Pandas數(shù)據(jù)挖掘分析神器
今天給大家介紹一款用于做EDA(探索性數(shù)據(jù)分析)的利器,并且可以自動生成代碼,幫助大家極大節(jié)省工作時間與提升工作效率的利器,叫做Bamboolib。
大家可以將其理解為是Pandas的GUI擴展工具,所具備的功能有
-
查看DataFrame數(shù)據(jù)集與Series數(shù)據(jù)集
-
過濾數(shù)據(jù)
-
數(shù)據(jù)的統(tǒng)計分析
-
繪制交互式圖表
-
文本數(shù)據(jù)的操作
-
數(shù)據(jù)清洗與類型轉(zhuǎn)換
-
合并數(shù)據(jù)集
安裝模塊
在使用之前,我們先需要通過pip install進行該模塊的安裝
pip install bamboolib
同時因為我們要在Jupyter Notebook以及JupyterLab上面用到該工具,因此還要安裝額外的插件
# Jupyter Notebook extensions
python -m bamboolib install_nbextensions
# JupyterLab extensions
python -m bamboolib install_labextensions
查看DataFrame數(shù)據(jù)集
在上面的步驟全都完成之后,我們開始簡單的來嘗試使用一下bamboolib,導(dǎo)入我們需要用到的模塊
import bamboolib as bam
import pandas as pd
讀取數(shù)據(jù)
df = pd.read_excel(
io="supermarkt_sales.xlsx",
engine="openpyxl",
sheet_name="Sales",
skiprows=3,
usecols="B:R",
nrows=1000,
)
df
會彈出如下所示的界面,

我們先來簡單介紹一下界面上的各個按鈕,
- Explore DataFrame:對數(shù)據(jù)集進行探索性分析的按鈕
- Create plot: 繪制交互性圖表的按鈕
- Search Transformations:包含對數(shù)據(jù)集進行各項操作
- Update: 過濾出指定的列
- Export: 可以將處理完的數(shù)據(jù)集以及代碼導(dǎo)出
Explore DataFrame按鈕來對數(shù)據(jù)先來一個大致的印象

Correlation Matrix按鈕

過濾數(shù)據(jù)
要是我們想要指定某一列數(shù)據(jù)的話,點擊下拉框,選中select or drop columns,

或者我們想要刪掉某一列的話,也是相類似的操作

filter rows按鈕,然后我們給出特定的條件,在Bamboolib模塊當(dāng)中有多種方式來過濾數(shù)據(jù),有has values、contains、startswith、endswith等等,類似于Pandas模塊當(dāng)中對于文本數(shù)據(jù)處理的方法,例如我們想要挑選出“省份”這一列當(dāng)中的“浙江省”的數(shù)據(jù),就這么來做

sort rows,例如我們以“毛利率”的大小來排序,并且是降序排序,就這么來做

要是我們想要對某一列的列名進行重命名,點擊rename columns

數(shù)據(jù)的清洗與類型轉(zhuǎn)換
我們能夠改變數(shù)據(jù)集當(dāng)中某一列的數(shù)據(jù)類型,點擊選中change column data dtype

drop missing values或者是drop columns with missing values

find and replace missing values

數(shù)據(jù)的統(tǒng)計分析
我們可以通過bamboolib模塊來對數(shù)據(jù)進行統(tǒng)計分析,例如計算數(shù)值的變化(percent change),我們在下拉框中找到percent change的選項,然后對指定的列計算當(dāng)中數(shù)值的變化百分比

cumulative product或者是cumulative sum

group by and aggregate按鈕,例如我們以“省份”來分組,計算“總收入”的平均值,可以這么來操作

合并數(shù)據(jù)集
要是我們想要進行合并數(shù)據(jù)集的操作,在下拉框選中join/merge dataframes選項,當(dāng)中有四種合并的方式,分別是inner join、left join、right join和outer join,然后我們選擇合并的

文本數(shù)據(jù)的操作
我們還能對數(shù)據(jù)集當(dāng)中的文本數(shù)據(jù)進行各種操作,包括對英文字母大小寫的轉(zhuǎn)換,就用convert to lowercase/convert to uppercase

Remove leading and trailing whitespaces

而要是我們需要對字符串做一個分割,就在下拉框中選中split text column

繪制交互式的圖表
我們同時還能夠通過該模塊來繪制交互式的圖表,我們點擊“create plot”按鈕,我們能看到在圖表類型當(dāng)中有直方圖、柱狀圖、折線圖、餅圖等十來種,我們來繪制當(dāng)中的一種 

--End--

想要優(yōu)惠買書的同學(xué)可以看:優(yōu)惠買書渠道
評論
圖片
表情
