騷操作!嵌套 JSON 秒變 Dataframe!

來源:Python數(shù)據(jù)科學(xué)
作者:東哥起飛
調(diào)用API和文檔數(shù)據(jù)庫會返回嵌套的JSON對象,當(dāng)我們使用Python嘗試將嵌套結(jié)構(gòu)中的鍵轉(zhuǎn)換為列時(shí),數(shù)據(jù)加載到pandas中往往會得到如下結(jié)果:
df?=?pd.DataFrame.from_records(results?[“?issues”],columns?=?[“?key”,“?fields”])

說明:這里results是一個(gè)大的字典,issues是results其中的一個(gè)鍵,issues的值為一個(gè)嵌套JSON對象字典的列表,后面會看到JSON嵌套結(jié)構(gòu)。
問題在于API返回了嵌套的JSON結(jié)構(gòu),而我們關(guān)心的鍵在對象中確處于不同級別。
嵌套的JSON結(jié)構(gòu)張成這樣的。

而我們想要的是下面這樣的。
下面以一個(gè)API返回的數(shù)據(jù)為例,API通常包含有關(guān)字段的元數(shù)據(jù)。假設(shè)下面這些是我們想要的字段。
key:JSON密鑰,在第一級的位置。
summary:第二級的“字段”對象。
status name:第三級位置。
statusCategory name:位于第4個(gè)嵌套級別。
如上,我們選擇要提取的字段在issues列表內(nèi)的JSON結(jié)構(gòu)中分別處于4個(gè)不同的嵌套級別,一環(huán)扣一環(huán)。
{
??"expand":?"schema,names",
??"issues":?[
????{
??????"fields":?{
????????"issuetype":?{
??????????"avatarId":?10300,
??????????"description":?"",
??????????"id":?"10005",
??????????"name":?"New?Feature",
??????????"subtask":?False
????????},
????????"status":?{
??????????"description":?"A?resolution?has?been?taken,?and?it?is?awaiting?verification?by?reporter.?From?here?issues?are?either?reopened,?or?are?closed.",
??????????"id":?"5",
??????????"name":?"Resolved",
??????????"statusCategory":?{
????????????"colorName":?"green",
????????????"id":?3,
????????????"key":?"done",
????????????"name":?"Done",
??????????}
????????},
????????"summary":?"Recovered?data?collection?Defraglar?$MFT?problem"
??????},
??????"id":?"11861",
??????"key":?"CAE-160",
????},
????{
??????"fields":?{?
...?more?issues],
??"maxResults":?5,
??"startAt":?0,
??"total":?160
}
一個(gè)不太好的解決方案
一種選擇是直接擼碼,寫一個(gè)查找特定字段的函數(shù),但問題是必須對每個(gè)嵌套字段調(diào)用此函數(shù),然后再調(diào)用.apply到DataFrame中的新列。
為獲取我們想要的幾個(gè)字段,首先我們提取fields鍵內(nèi)的對象至列:
df?=?(
????df["fields"]
????.apply(pd.Series)
????.merge(df,?left_index=True,?right_index?=?True)
)

從上表看出,只有summary是可用的,issuetype、status等仍然埋在嵌套對象中。
下面是提取issuetype中的name的一種方法。
#?提取issue?type的name到一個(gè)新列叫"issue_type"
df_issue_type?=?(
????df["issuetype"]
????.apply(pd.Series)
????.rename(columns={"name":?"issue_type_name"})["issue_type_name"]
)
df?=?df.assign(issue_type_name?=?df_issue_type)

像上面這樣,如果嵌套層級特別多,就需要自己手?jǐn)]一個(gè)遞歸來實(shí)現(xiàn)了,因?yàn)槊繉忧短锥夹枰{(diào)用一個(gè)像上面解析并添加到新列的方法。
對于編程基礎(chǔ)薄弱的朋友,手?jǐn)]一個(gè)其實(shí)還挺麻煩的,尤其是對于數(shù)據(jù)分析師,著急想用數(shù)據(jù)的時(shí)候,希望可以快速拿到結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析。
下面東哥分享一個(gè)pandas的內(nèi)置解決方案。
內(nèi)置的解決方案
pandas中有一個(gè)牛逼的內(nèi)置功能叫?.json_normalize。
pandas的文檔中提到:將半結(jié)構(gòu)化JSON數(shù)據(jù)規(guī)范化為平面表。
前面方案的所有代碼,用這個(gè)內(nèi)置功能僅需要3行就可搞定。步驟很簡單,懂了下面幾個(gè)用法即可。
確定我們要想的字段,使用 . 符號連接嵌套對象。
將想要處理的嵌套列表(這里是results["issues"])作為參數(shù)放進(jìn) .json_normalize 中。
過濾我們定義的FIELDS列表。
FIELDS?=?["key",?"fields.summary",?"fields.issuetype.name",?"fields.status.name",?"fields.status.statusCategory.name"]
df?=?pd.json_normalize(results["issues"])
df[FIELDS]

沒錯(cuò),就這么簡單。
其它操作
記錄路徑
除了像上面那樣傳遞results["issues"]列表之外,我們還使用record_path參數(shù)在JSON對象中指定列表的路徑。
#?使用路徑而不是直接用results["issues"]
pd.json_normalize(results,?record_path="issues")[FIELDS]
自定義分隔符
還可以使用sep參數(shù)自定義嵌套結(jié)構(gòu)連接的分隔符,比如下面將默認(rèn)的“.”替換“-”。
#?用?"-"?替換默認(rèn)的?"."
FIELDS?=?["key",?"fields-summary",?"fields-issuetype-name",?"fields-status-name",?"fields-status-statusCategory-name"]
pd.json_normalize(results["issues"],?sep?=?"-")[FIELDS]
控制遞歸
如果不想遞歸到每個(gè)子對象,可以使用max_level參數(shù)控制深度。在這種情況下,由于statusCategory.name字段位于JSON對象的第4級,因此不會包含在結(jié)果DataFrame中。
#?只深入到嵌套第二級
pd.json_normalize(results,?record_path="issues",?max_level?=?2)
下面是.json_normalize的pandas官方文檔說明,如有不明白可自行學(xué)習(xí),本次東哥就介紹到這里。
pandas官方文檔:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html
推薦閱讀
SQL中JOIN時(shí)條件放在Where和On的區(qū)別
