<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2000字精華總結(jié),安利一個超好用的Pandas數(shù)據(jù)挖掘分析神器

          共 2938字,需瀏覽 6分鐘

           ·

          2024-04-11 07:12

          今天給大家介紹一款用于做EDA(探索性數(shù)據(jù)分析)的利器,并且可以自動生成代碼,幫助大家極大節(jié)省工作時間與提升工作效率的利器,叫做Bamboolib。

          大家可以將其理解為是PandasGUI擴展工具,所具備的功能有

          • 查看DataFrame數(shù)據(jù)集與Series數(shù)據(jù)集

          • 過濾數(shù)據(jù)

          • 數(shù)據(jù)的統(tǒng)計分析

          • 繪制交互式圖表

          • 文本數(shù)據(jù)的操作

          • 數(shù)據(jù)清洗與類型轉(zhuǎn)換

          • 合并數(shù)據(jù)集

          安裝模塊

          在使用之前,我們先需要通過pip install進行該模塊的安裝

                
                pip install bamboolib 
          同時因為我們要在Jupyter Notebook以及JupyterLab上面用到該工具,因此還要安裝額外的插件
                
                # Jupyter Notebook extensions
          python -m bamboolib install_nbextensions

          # JupyterLab extensions
          python -m bamboolib install_labextensions

          查看DataFrame數(shù)據(jù)集

          在上面的步驟全都完成之后,我們開始簡單的來嘗試使用一下bamboolib,導(dǎo)入我們需要用到的模塊
                
                import bamboolib as bam
          import pandas as pd

          讀取數(shù)據(jù)

                
                df = pd.read_excel(
              io="supermarkt_sales.xlsx",
              engine="openpyxl",
              sheet_name="Sales",
              skiprows=3,
              usecols="B:R",
              nrows=1000,
          )

          df

          會彈出如下所示的界面,

          3378198bb6759483b257e5247bc2495a.webp

          我們先來簡單介紹一下界面上的各個按鈕,

          • Explore DataFrame:對數(shù)據(jù)集進行探索性分析的按鈕
          • Create plot: 繪制交互性圖表的按鈕
          • Search Transformations:包含對數(shù)據(jù)集進行各項操作
          • Update: 過濾出指定的列
          • Export: 可以將處理完的數(shù)據(jù)集以及代碼導(dǎo)出
          我們點擊Explore DataFrame按鈕來對數(shù)據(jù)先來一個大致的印象

          74317bcaf2a690092c152e963c889727.webp

          我們看到會對數(shù)據(jù)集有一個大致的介紹,例如數(shù)據(jù)集是有1000行、18列,然后每一列的數(shù)據(jù)類型、每一列有多少的唯一值和缺失值我們都可以直觀的看到要是我們想要查看有著連續(xù)型變量的特征,它們之間的相關(guān)性,可以點擊Correlation Matrix按鈕

          d07e9fc4ae585e506ba6fffbe861f24b.webp

          過濾數(shù)據(jù)

          要是我們想要指定某一列數(shù)據(jù)的話,點擊下拉框,選中select or drop columns

          a003d5b70a9b222df2c547196725b72e.webp

          或者我們想要刪掉某一列的話,也是相類似的操作

          c92cf20c8230114d08189a1b358f49af.webp

          當(dāng)然我們?nèi)绻胍鶕?jù)特定的條件來過濾出某些數(shù)據(jù)的話,則是選中filter rows按鈕,然后我們給出特定的條件,在Bamboolib模塊當(dāng)中有多種方式來過濾數(shù)據(jù),有has valuescontainsstartswithendswith等等,類似于Pandas模塊當(dāng)中對于文本數(shù)據(jù)處理的方法,例如我們想要挑選出“省份”這一列當(dāng)中的“浙江省”的數(shù)據(jù),就這么來做

          d4841975afd487195fff08f37fa68a8d.webp

          我們還能夠?qū)γ啃械臄?shù)據(jù)進行排列,點擊下拉框選中sort rows,例如我們以“毛利率”的大小來排序,并且是降序排序,就這么來做

          ed1cb9b545828f63c1c1c50b75786d76.webp

          要是我們想要對某一列的列名進行重命名,點擊rename columns

          87ec806b666222a17e8cf1800ba893ac.webp

          數(shù)據(jù)的清洗與類型轉(zhuǎn)換

          我們能夠改變數(shù)據(jù)集當(dāng)中某一列的數(shù)據(jù)類型,點擊選中change column data dtype

          72ec27cd980d09d33bf75f703fb8496d.webp

          對于缺失值的情況,我們既可以選擇去除掉這些缺失值,點擊選中drop missing values或者是drop columns with missing values

          c7614c7b0c5c6aac843e29373b9a34d4.webp

          當(dāng)然可以將這些缺失值替代為其他特定的值,無論是平均值或者是眾數(shù)等等,點擊選中find and replace missing values

          ae99881eee4b14c985f45167cc1305c4.webp

          數(shù)據(jù)的統(tǒng)計分析

          我們可以通過bamboolib模塊來對數(shù)據(jù)進行統(tǒng)計分析,例如計算數(shù)值的變化(percent change),我們在下拉框中找到percent change的選項,然后對指定的列計算當(dāng)中數(shù)值的變化百分比

          1e0df0dd93ba04f0fc87e493602eed90.webp

          我們還能夠進行累乘/累加的操作,我們在下拉框中選中cumulative product或者是cumulative sum

          1100fef3ac38e144972ade13e1fb6316.webp

          另外我們還能進行分組統(tǒng)計的計算操作,選中下拉框當(dāng)中的group by and aggregate按鈕,例如我們以“省份”來分組,計算“總收入”的平均值,可以這么來操作

          c8fec4dc447e9acf6dc858fe4f0fea97.webp

          合并數(shù)據(jù)集

          要是我們想要進行合并數(shù)據(jù)集的操作,在下拉框選中join/merge dataframes選項,當(dāng)中有四種合并的方式,分別是inner joinleft joinright joinouter join,然后我們選擇合并的

          78e8e484a95efecb05b527b669a88666.webp

          文本數(shù)據(jù)的操作

          我們還能對數(shù)據(jù)集當(dāng)中的文本數(shù)據(jù)進行各種操作,包括對英文字母大小寫的轉(zhuǎn)換,就用convert to lowercase/convert to uppercase

          4b27294be56210bdc897f793b368ceec.webp

          如果我們需要對字符串當(dāng)中的空格做一個處理,我們在下拉框當(dāng)中選中Remove leading and trailing whitespaces

          f6a3fb50dc2718abc94014dd86cc93ef.webp

          而要是我們需要對字符串做一個分割,就在下拉框中選中split text column

          b2f94f99e6b9b61fff5332a2ce5918a0.webp

          繪制交互式的圖表

          我們同時還能夠通過該模塊來繪制交互式的圖表,我們點擊“create plot”按鈕,我們能看到在圖表類型當(dāng)中有直方圖、柱狀圖、折線圖、餅圖等十來種,我們來繪制當(dāng)中的一種

          a25b64d4d70b95c816b8913072be0da6.webp

          我們在X軸上指定的是“省份”的數(shù)據(jù),然后根據(jù)不同的商品類型配上不同的顏色,而從繪制出來的結(jié)果中能夠看到來自“北京”的顧客“食品飲料”購買的比較多,而來“浙江”的顧客“服裝服飾”購買的比較多

          f465275ecf12723a4e44fbe072cd7975.webp

          當(dāng)然除了直方圖之外,還有其他很多種圖表可以通過該模塊來繪制,這里由于篇幅有限,就不一一給大家演示。
                

          --End--

          f9e1640bf9223455b7d583cf24982ded.webp

          想要優(yōu)惠買書的同學(xué)可以看:優(yōu)惠買書渠道

          瀏覽 53
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费观看黄色小视频 | 天天射天天日天天干 | 日本欧美国产在线 | 无码在线直播 | 亚洲无码不卡视频 |