2000字精華總結(jié),安利一個(gè)超好用的Pandas數(shù)據(jù)挖掘分析神器
大家可以將其理解為是Pandas的GUI擴(kuò)展工具,所具備的功能有
查看DataFrame數(shù)據(jù)集與Series數(shù)據(jù)集
過(guò)濾數(shù)據(jù)
數(shù)據(jù)的統(tǒng)計(jì)分析
繪制交互式圖表
文本數(shù)據(jù)的操作
數(shù)據(jù)清洗與類型轉(zhuǎn)換
合并數(shù)據(jù)集
安裝模塊
在使用之前,我們先需要通過(guò)pip install進(jìn)行該模塊的安裝
pip install bamboolib
JupyterLab上面用到該工具,因此還要安裝額外的插件# Jupyter Notebook extensions
python -m bamboolib install_nbextensions
# JupyterLab extensions
python -m bamboolib install_labextensions
查看DataFrame數(shù)據(jù)集
bamboolib,導(dǎo)入我們需要用到的模塊import bamboolib as bam
import pandas as pd
讀取數(shù)據(jù)
df = pd.read_excel(
io="supermarkt_sales.xlsx",
engine="openpyxl",
sheet_name="Sales",
skiprows=3,
usecols="B:R",
nrows=1000,
)
df
會(huì)彈出如下所示的界面,

我們先來(lái)簡(jiǎn)單介紹一下界面上的各個(gè)按鈕,
Explore DataFrame:對(duì)數(shù)據(jù)集進(jìn)行探索性分析的按鈕 Create plot: 繪制交互性圖表的按鈕 Search Transformations:包含對(duì)數(shù)據(jù)集進(jìn)行各項(xiàng)操作 Update: 過(guò)濾出指定的列 Export: 可以將處理完的數(shù)據(jù)集以及代碼導(dǎo)出
Explore DataFrame按鈕來(lái)對(duì)數(shù)據(jù)先來(lái)一個(gè)大致的印象
Correlation Matrix按鈕
過(guò)濾數(shù)據(jù)
要是我們想要指定某一列數(shù)據(jù)的話,點(diǎn)擊下拉框,選中select or drop columns,

或者我們想要?jiǎng)h掉某一列的話,也是相類似的操作

filter rows按鈕,然后我們給出特定的條件,在Bamboolib模塊當(dāng)中有多種方式來(lái)過(guò)濾數(shù)據(jù),有has values、contains、startswith、endswith等等,類似于Pandas模塊當(dāng)中對(duì)于文本數(shù)據(jù)處理的方法,例如我們想要挑選出“省份”這一列當(dāng)中的“浙江省”的數(shù)據(jù),就這么來(lái)做
sort rows,例如我們以“毛利率”的大小來(lái)排序,并且是降序排序,就這么來(lái)做
要是我們想要對(duì)某一列的列名進(jìn)行重命名,點(diǎn)擊rename columns

數(shù)據(jù)的清洗與類型轉(zhuǎn)換
change column data dtype
drop missing values或者是drop columns with missing values
find and replace missing values
數(shù)據(jù)的統(tǒng)計(jì)分析
bamboolib模塊來(lái)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,例如計(jì)算數(shù)值的變化(percent change),我們?cè)谙吕蛑姓业?code style="font-size: 14px;padding: 2px 4px;border-radius: 4px;margin-right: 2px;margin-left: 2px;background-color: rgba(27, 31, 35, 0.05);font-family: "Operator Mono", Consolas, Monaco, Menlo, monospace;word-break: break-all;color: rgb(71, 193, 168);">percent change的選項(xiàng),然后對(duì)指定的列計(jì)算當(dāng)中數(shù)值的變化百分比
cumulative product或者是cumulative sum
group by and aggregate按鈕,例如我們以“省份”來(lái)分組,計(jì)算“總收入”的平均值,可以這么來(lái)操作
合并數(shù)據(jù)集
join/merge dataframes選項(xiàng),當(dāng)中有四種合并的方式,分別是inner join、left join、right join和outer join,然后我們選擇合并的
文本數(shù)據(jù)的操作
convert to lowercase/convert to uppercase
Remove leading and trailing whitespaces
而要是我們需要對(duì)字符串做一個(gè)分割,就在下拉框中選中split text column

繪制交互式的圖表


如果有不理解的地方可以自己動(dòng)手嘗試一下,也可以通過(guò)直接私信交流。感謝支持。
掃碼即可加我微信
學(xué)習(xí)交流
老表朋友圈經(jīng)常有贈(zèng)書(shū)/紅包福利活動(dòng)
萬(wàn)水千山總是情,點(diǎn)個(gè) ?? 行不行。
評(píng)論
圖片
表情
