2021中國胡潤百富榜揭曉,Python可視化走一波~
2021中國胡潤百富榜
大家好,歡迎來到 Crossin的編程教室 !
前幾天看到一個(gè)有意思的榜單“中國胡潤百富榜單”,今年是胡潤研究院自1999年以來連續(xù)第23次發(fā)布“胡潤百富榜”,上榜門檻連續(xù)第九年保持20億元。今天就分享一篇案例文章:帶大家分析看看這個(gè)排行榜里都有哪些信息。
數(shù)據(jù)采集
數(shù)據(jù)來源:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich
打開頁面如下
我們需要采集前 2000 名榜單人員的基本信息,分析過程十分簡(jiǎn)單:F12 打開開發(fā)者工具。CTRL + R 刷新頁面,就可以看到抓到的數(shù)據(jù)包。
https://www.hurun.net/zh-CN/Rank/HsRankDetailsList?num=YUBAO34E&search=&offset=0&limit=20
采集的鏈接中包含兩個(gè)主要參數(shù),
offset:0,頁碼limit:20,限制數(shù)據(jù)量最多 20 條
代碼抓取的的時(shí)候暴力點(diǎn),直接設(shè)置 limit=2000,即一次請(qǐng)求 2000 條用戶數(shù)據(jù),不用分頁請(qǐng)求。
思路有了,開始擼代碼!
import?requests
headers?=?{
????'User-Agent':?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/94.0.4606.54?Safari/537.36'
}
params?=?{
????'num':?'YUBAO34E',
????'offset':?0,
????'limit':?2000
}
url?=?'https://www.hurun.net/zh-CN/Rank/HsRankDetailsList'
page_text?=?requests.get(url=url,?headers=headers,?params=params).json()
page_text
有數(shù)據(jù)輸出,并且數(shù)據(jù)量看起來也沒問題,下一步開始解析需要的字段。代碼較多這里就不展示了,文末有完整源碼獲取方式!
由于數(shù)據(jù)包中的信息確實(shí)較多,我只提取了部分需要的字段,大致如下:
由于后面需要做地圖,需要省份信息,所以對(duì)出生地字段切割一下,將省份提取出來,圖片字段同樣也要做一些處理,主要是由于我用 Tableau 做圖的原因,如果大家可視化方式不同,完全可以跳過這一步!
df['birth_place_split']?=?df['birth_place'].str.split('-')
df['birth_place_split']?=?df['birth_place_split'].apply(lambda?x:''?if?len(x)?==?1?else?x[1])
df['photo_split']?=?df['photo'].apply(lambda?x:x.split('/')[-1])
df.head()
最后將處理好的數(shù)據(jù)集保存到本地。
可視化
可視化工具:Tableau 2021.3。
百富榜TOP10
由于平時(shí)不怎么關(guān)注這些內(nèi)容,第一次看這個(gè)結(jié)果竟發(fā)現(xiàn)前十的只認(rèn)識(shí) 5、6 個(gè)。我一直還以為首富應(yīng)該是“兩馬”中的一個(gè),現(xiàn)在一看確實(shí)是我跟不少時(shí)代了。。飲料、醫(yī)療保健也這么賺錢的哇!
百富榜年齡分布
榜單上的 74% 大佬年齡分布在45~70歲之間,其中58歲的有125人,大部分都是中年。
百富榜出生地分布
出生地分布前三名分別是:浙江、廣州、江蘇。
百富榜熱門產(chǎn)業(yè)
熱門產(chǎn)業(yè)主要還是房地產(chǎn)、投資、醫(yī)藥、食品、化工等,確實(shí)都是大佬們玩的東西。
合成看板
最后做個(gè)匯總性的看板,加點(diǎn)聯(lián)動(dòng)效果。

時(shí)間比較趕,加上最近確實(shí)比較忙,排版什么的也沒細(xì)做,大家看個(gè)樂就好。
祝大家早日上榜!
公眾號(hào)后臺(tái)回復(fù)“胡潤”即可獲取 源碼 + Tableau源文件。
如果文章對(duì)你有幫助,歡迎轉(zhuǎn)發(fā)/點(diǎn)贊/收藏~
作者:Python丁小杰
_往期文章推薦_
