<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          pandas100個(gè)騷操作:JSON自動(dòng)解析為DataFrame

          共 5409字,需瀏覽 11分鐘

           ·

          2021-09-24 16:29

          ↑ 關(guān)注 + 星標(biāo) ,每天學(xué)Python新技能

          后臺(tái)回復(fù)【大禮包】送你Python自學(xué)大禮包

          來源:Python數(shù)據(jù)科學(xué)

          作者:東哥起飛

          調(diào)用API和文檔數(shù)據(jù)庫(kù)會(huì)返回嵌套的JSON對(duì)象,當(dāng)我們使用Python嘗試將嵌套結(jié)構(gòu)中的鍵轉(zhuǎn)換為列時(shí),數(shù)據(jù)加載到pandas中往往會(huì)得到如下結(jié)果:

          df = pd.DataFrame.from_records(results [“ issues”],columns = [“ key”,“ fields”])
          說明:這里results是一個(gè)大的字典,issues是results其中的一個(gè)鍵,issues的值為一個(gè)嵌套JSON對(duì)象字典的列表,后面會(huì)看到JSON嵌套結(jié)構(gòu)。
          問題在于API返回了嵌套的JSON結(jié)構(gòu),而我們關(guān)心的鍵在對(duì)象中確處于不同級(jí)別。
          嵌套的JSON結(jié)構(gòu)張成這樣的。
          而我們想要的是下面這樣的。
          下面以一個(gè)API返回的數(shù)據(jù)為例,API通常包含有關(guān)字段的元數(shù)據(jù)。假設(shè)下面這些是我們想要的字段。
          • key:JSON密鑰,在第一級(jí)的位置。

          • summary:第二級(jí)的“字段”對(duì)象。

          • status name:第三級(jí)位置。

          • statusCategory name:位于第4個(gè)嵌套級(jí)別。

          如上,我們選擇要提取的字段在issues列表內(nèi)的JSON結(jié)構(gòu)中分別處于4個(gè)不同的嵌套級(jí)別,一環(huán)扣一環(huán)。
          {
            "expand""schema,names",
            "issues": [
              {
                "fields": {
                  "issuetype": {
                    "avatarId"10300,
                    "description""",
                    "id""10005",
                    "name""New Feature",
                    "subtask": False
                  },
                  "status": {
                    "description""A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.",
                    "id""5",
                    "name""Resolved",
                    "statusCategory": {
                      "colorName""green",
                      "id"3,
                      "key""done",
                      "name""Done",
                    }
                  },
                  "summary""Recovered data collection Defraglar $MFT problem"
                },
                "id""11861",
                "key""CAE-160",
              },
              {
                "fields": { 
          ... more issues],
            "maxResults"5,
            "startAt"0,
            "total"160
          }


          一個(gè)不太好的解決方案

          一種選擇是直接擼碼,寫一個(gè)查找特定字段的函數(shù),但問題是必須對(duì)每個(gè)嵌套字段調(diào)用此函數(shù),然后再調(diào)用.apply到DataFrame中的新列。
          為獲取我們想要的幾個(gè)字段,首先我們提取fields鍵內(nèi)的對(duì)象至列:
          df = (
              df["fields"]
              .apply(pd.Series)
              .merge(df, left_index=True, right_index = True)
          )

          從上表看出,只有summary是可用的,issuetype、status等仍然埋在嵌套對(duì)象中。
          下面是提取issuetype中的name的一種方法。
          # 提取issue type的name到一個(gè)新列叫"issue_type"
          df_issue_type = (
              df["issuetype"]
              .apply(pd.Series)
              .rename(columns={"name""issue_type_name"})["issue_type_name"]
          )
          df = df.assign(issue_type_name = df_issue_type)


          像上面這樣,如果嵌套層級(jí)特別多,就需要自己手?jǐn)]一個(gè)遞歸來實(shí)現(xiàn)了,因?yàn)槊繉忧短锥夹枰{(diào)用一個(gè)像上面解析并添加到新列的方法。
          對(duì)于編程基礎(chǔ)薄弱的朋友,手?jǐn)]一個(gè)其實(shí)還挺麻煩的,尤其是對(duì)于數(shù)據(jù)分析師,著急想用數(shù)據(jù)的時(shí)候,希望可以快速拿到結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析。
          下面東哥分享一個(gè)pandas的內(nèi)置解決方案。

          內(nèi)置的解決方案

          pandas中有一個(gè)牛逼的內(nèi)置功能叫 .json_normalize。
          pandas的文檔中提到:將半結(jié)構(gòu)化JSON數(shù)據(jù)規(guī)范化為平面表。
          前面方案的所有代碼,用這個(gè)內(nèi)置功能僅需要3行就可搞定。步驟很簡(jiǎn)單,懂了下面幾個(gè)用法即可。
          • 確定我們要想的字段,使用 . 符號(hào)連接嵌套對(duì)象。
          • 將想要處理的嵌套列表(這里是results["issues"])作為參數(shù)放進(jìn) .json_normalize 中。
          • 過濾我們定義的FIELDS列表。
          FIELDS = ["key""fields.summary""fields.issuetype.name""fields.status.name""fields.status.statusCategory.name"]
          df = pd.json_normalize(results["issues"])
          df[FIELDS]


          沒錯(cuò),就這么簡(jiǎn)單。


          其它操作

          記錄路徑

          除了像上面那樣傳遞results["issues"]列表之外,我們還使用record_path參數(shù)在JSON對(duì)象中指定列表的路徑。
          # 使用路徑而不是直接用results["issues"]
          pd.json_normalize(results, record_path="issues")[FIELDS]

          自定義分隔符

          還可以使用sep參數(shù)自定義嵌套結(jié)構(gòu)連接的分隔符,比如下面將默認(rèn)的“.”替換“-”
          # 用 "-" 替換默認(rèn)的 "."
          FIELDS = ["key""fields-summary""fields-issuetype-name""fields-status-name""fields-status-statusCategory-name"]
          pd.json_normalize(results["issues"], sep = "-")[FIELDS]

          控制遞歸

          如果不想遞歸到每個(gè)子對(duì)象,可以使用max_level參數(shù)控制深度。在這種情況下,由于statusCategory.name字段位于JSON對(duì)象的第4級(jí),因此不會(huì)包含在結(jié)果DataFrame中。
          # 只深入到嵌套第二級(jí)
          pd.json_normalize(results, record_path="issues", max_level = 2)
          下面是.json_normalize的pandas官方文檔說明,如有不明白可自行學(xué)習(xí),本次東哥就介紹到這里。
          參考:
          [1] pandas官方文檔:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html
          [2] https://medium.com/swlh/converting-nested-json-structures-to-pandas-dataframes-e8106c59976e
          以上所有代碼已上傳至我的GitHub:
          項(xiàng)目鏈接:https://github.com/xiaoyusmd/PythonDataScience
          原創(chuàng)不易,如果覺得有幫助,支持下給個(gè)Star
          - END -


          推薦閱讀

          1. 深圳一普通中學(xué)老師工資單曝光,秒殺程序員,網(wǎng)友:酸了酸了

          2. 5 分鐘,使用內(nèi)網(wǎng)穿透快速實(shí)現(xiàn)遠(yuǎn)程桌面

          3. 這幾門語言要被淘汰了!別瞎學(xué)


          推薦一個(gè)公眾號(hào),幫助程序員自學(xué)與成長(zhǎng)

          覺得還不錯(cuò)就給我一個(gè)小小的鼓勵(lì)吧!



          瀏覽 43
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操逼逼逼逼逼 | 亚洲精品成人在线视频久久 | 精品做爱视频在线观看 | 亚洲中文字幕第一页 | 欧美成人网站在线免费观看 |