<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          pandas100個騷操作:JSON自動解析為DataFrame

          共 3487字,需瀏覽 7分鐘

           ·

          2021-02-09 20:33



          來源:Python數(shù)據(jù)科學(xué)

          作者:東哥起飛

          大家好,我是你們的東哥。

          本篇是pandas100個騷操作的第2篇:JSON自動解析為DataFrame

          全部內(nèi)容請點文章頭部的「pandas100個騷操作」系列查看。


          調(diào)用API和文檔數(shù)據(jù)庫會返回嵌套的JSON對象,當我們使用Python嘗試將嵌套結(jié)構(gòu)中的鍵轉(zhuǎn)換為列時,數(shù)據(jù)加載到pandas中往往會得到如下結(jié)果:

          df?=?pd.DataFrame.from_records(results?[“?issues”],columns?=?[“?key”,“?fields”])
          說明:這里results是一個大的字典,issues是results其中的一個鍵,issues的值為一個嵌套JSON對象字典的列表,后面會看到JSON嵌套結(jié)構(gòu)。
          問題在于API返回了嵌套的JSON結(jié)構(gòu),而我們關(guān)心的鍵在對象中確處于不同級別。
          嵌套的JSON結(jié)構(gòu)張成這樣的。
          而我們想要的是下面這樣的。
          下面以一個API返回的數(shù)據(jù)為例,API通常包含有關(guān)字段的元數(shù)據(jù)。假設(shè)下面這些是我們想要的字段。
          • key:JSON密鑰,在第一級的位置。

          • summary:第二級的“字段”對象。

          • status name:第三級位置。

          • statusCategory name:位于第4個嵌套級別。

          如上,我們選擇要提取的字段在issues列表內(nèi)的JSON結(jié)構(gòu)中分別處于4個不同的嵌套級別,一環(huán)扣一環(huán)。
          {
          ??"expand":?"schema,names",
          ??"issues":?[
          ????{
          ??????"fields":?{
          ????????"issuetype":?{
          ??????????"avatarId":?10300,
          ??????????"description":?"",
          ??????????"id":?"10005",
          ??????????"name":?"New?Feature",
          ??????????"subtask":?False
          ????????},
          ????????"status":?{
          ??????????"description":?"A?resolution?has?been?taken,?and?it?is?awaiting?verification?by?reporter.?From?here?issues?are?either?reopened,?or?are?closed.",
          ??????????"id":?"5",
          ??????????"name":?"Resolved",
          ??????????"statusCategory":?{
          ????????????"colorName":?"green",
          ????????????"id":?3,
          ????????????"key":?"done",
          ????????????"name":?"Done",
          ??????????}
          ????????},
          ????????"summary":?"Recovered?data?collection?Defraglar?$MFT?problem"
          ??????},
          ??????"id":?"11861",
          ??????"key":?"CAE-160",
          ????},
          ????{
          ??????"fields":?{?
          ...?more?issues],
          ??"maxResults":?5,
          ??"startAt":?0,
          ??"total":?160
          }


          一個不太好的解決方案

          一種選擇是直接擼碼,寫一個查找特定字段的函數(shù),但問題是必須對每個嵌套字段調(diào)用此函數(shù),然后再調(diào)用.apply到DataFrame中的新列。
          為獲取我們想要的幾個字段,首先我們提取fields鍵內(nèi)的對象至列:
          df?=?(
          ????df["fields"]
          ????.apply(pd.Series)
          ????.merge(df,?left_index=True,?right_index?=?True)
          )

          從上表看出,只有summary是可用的,issuetype、status等仍然埋在嵌套對象中。
          下面是提取issuetype中的name的一種方法。
          #?提取issue?type的name到一個新列叫"issue_type"
          df_issue_type?=?(
          ????df["issuetype"]
          ????.apply(pd.Series)
          ????.rename(columns={"name":?"issue_type_name"})["issue_type_name"]
          )
          df?=?df.assign(issue_type_name?=?df_issue_type)


          像上面這樣,如果嵌套層級特別多,就需要自己手擼一個遞歸來實現(xiàn)了,因為每層嵌套都需要調(diào)用一個像上面解析并添加到新列的方法。
          對于編程基礎(chǔ)薄弱的朋友,手擼一個其實還挺麻煩的,尤其是對于數(shù)據(jù)分析師,著急想用數(shù)據(jù)的時候,希望可以快速拿到結(jié)構(gòu)化的數(shù)據(jù)進行分析。
          下面東哥分享一個pandas的內(nèi)置解決方案。

          內(nèi)置的解決方案

          pandas中有一個牛逼的內(nèi)置功能叫?.json_normalize。
          pandas的文檔中提到:將半結(jié)構(gòu)化JSON數(shù)據(jù)規(guī)范化為平面表。
          前面方案的所有代碼,用這個內(nèi)置功能僅需要3行就可搞定。步驟很簡單,懂了下面幾個用法即可。
          • 確定我們要想的字段,使用 . 符號連接嵌套對象。
          • 將想要處理的嵌套列表(這里是results["issues"])作為參數(shù)放進 .json_normalize 中。
          • 過濾我們定義的FIELDS列表。
          FIELDS?=?["key",?"fields.summary",?"fields.issuetype.name",?"fields.status.name",?"fields.status.statusCategory.name"]
          df?=?pd.json_normalize(results["issues"])
          df[FIELDS]


          沒錯,就這么簡單。


          其它操作

          記錄路徑

          除了像上面那樣傳遞results["issues"]列表之外,我們還使用record_path參數(shù)在JSON對象中指定列表的路徑。
          #?使用路徑而不是直接用results["issues"]
          pd.json_normalize(results,?record_path="issues")[FIELDS]

          自定義分隔符

          還可以使用sep參數(shù)自定義嵌套結(jié)構(gòu)連接的分隔符,比如下面將默認的“.”替換“-”
          #?用?"-"?替換默認的?"."
          FIELDS?=?["key",?"fields-summary",?"fields-issuetype-name",?"fields-status-name",?"fields-status-statusCategory-name"]
          pd.json_normalize(results["issues"],?sep?=?"-")[FIELDS]

          控制遞歸

          如果不想遞歸到每個子對象,可以使用max_level參數(shù)控制深度。在這種情況下,由于statusCategory.name字段位于JSON對象的第4級,因此不會包含在結(jié)果DataFrame中。
          #?只深入到嵌套第二級
          pd.json_normalize(results,?record_path="issues",?max_level?=?2)
          下面是.json_normalize的pandas官方文檔說明,如有不明白可自行學(xué)習(xí),本次東哥就介紹到這里。
          參考:
          [1] pandas官方文檔:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html
          [2] https://medium.com/swlh/converting-nested-json-structures-to-pandas-dataframes-e8106c59976e
          以上所有代碼已上傳至我的GitHub:
          項目鏈接:https://github.com/xiaoyusmd/PythonDataScience
          原創(chuàng)不易,如果覺得有幫助,支持下給個Star


          愛點贊的人,運氣都不會太差

          瀏覽 65
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产69精品久久久久久久 | wwwxxxx69 | 天堂网在线观看 | 麻豆爱爱视频 | 三级欧美视频 |