2021中國(guó)胡潤(rùn)百富榜揭曉:中國(guó)首富竟是他?。?!
回復(fù)“書(shū)籍”即可獲贈(zèng)Python從入門(mén)到進(jìn)階共10本電子書(shū)
2021中國(guó)胡潤(rùn)百富榜
前幾天看到一個(gè)有意思的榜單“中國(guó)胡潤(rùn)百富榜單”,今年是胡潤(rùn)研究院自1999年以來(lái)連續(xù)第23次發(fā)布“胡潤(rùn)百富榜”,上榜門(mén)檻連續(xù)第九年保持20億元。今天帶大家分析看看中國(guó)都有哪些大牛!
數(shù)據(jù)采集
數(shù)據(jù)來(lái)源:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich
打開(kāi)頁(yè)面如下
我們需要采集前 2000 名榜單人員的基本信息,分析過(guò)程十分簡(jiǎn)單:F12 打開(kāi)開(kāi)發(fā)者工具。CTRL + R 刷新頁(yè)面,就可以看到抓到的數(shù)據(jù)包。
https://www.hurun.net/zh-CN/Rank/HsRankDetailsList?num=YUBAO34E&search=&offset=0&limit=20
采集的鏈接中包含兩個(gè)主要參數(shù),
offset:0,頁(yè)碼limit:20,限制數(shù)據(jù)量最多 20 條
代碼抓取的的時(shí)候暴力點(diǎn),直接設(shè)置 limit=2000,即一次請(qǐng)求 2000 條用戶數(shù)據(jù),不用分頁(yè)請(qǐng)求,思路有了,開(kāi)始擼代碼!
import?requests
headers?=?{
????'User-Agent':?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/94.0.4606.54?Safari/537.36'
}
params?=?{
????'num':?'YUBAO34E',
????'offset':?0,
????'limit':?2000
}
url?=?'https://www.hurun.net/zh-CN/Rank/HsRankDetailsList'
page_text?=?requests.get(url=url,?headers=headers,?params=params).json()
page_text
有數(shù)據(jù)輸出,并且數(shù)據(jù)量看起來(lái)也沒(méi)問(wèn)題,下一步開(kāi)始解析需要的字段。代碼較多這里就不展示了,文末有完整源碼獲取方式!
由于數(shù)據(jù)包中的信息確實(shí)較多,我只提取了部分需要的字段,大致如下:
由于后面需要做地圖,需要省份信息,所以對(duì)出生地字段切割一下,將省份提取出來(lái),圖片字段同樣也要做一些處理,主要是由于我用 Tableau 做圖的原因,如果大家可視化方式不同,完全可以跳過(guò)這一步!
df['birth_place_split']?=?df['birth_place'].str.split('-')
df['birth_place_split']?=?df['birth_place_split'].apply(lambda?x:''?if?len(x)?==?1?else?x[1])
df['photo_split']?=?df['photo'].apply(lambda?x:x.split('/')[-1])
df.head()
最后將處理好的數(shù)據(jù)集保存到本地。
可視化
可視化工具:Tableau 2021.3。
百富榜TOP10
由于平時(shí)不怎么關(guān)注這些內(nèi)容,第一次看這個(gè)結(jié)果竟發(fā)現(xiàn)前十的只認(rèn)識(shí) 5、6 個(gè)。我一直還以為首富應(yīng)該是“兩馬”中的一個(gè),現(xiàn)在一看確實(shí)是我跟不少時(shí)代了。。飲料、醫(yī)療保健也這么賺錢(qián)的哇!
百富榜年齡分布
榜單上的 74% 大佬年齡分布在45~70歲之間,其中58歲的有125人,大部分都是中年。
百富榜出生地分布
出生地分布前三名分別是:浙江、廣州、江蘇。
百富榜熱門(mén)產(chǎn)業(yè)
熱門(mén)產(chǎn)業(yè)主要還是房地產(chǎn)、投資、醫(yī)藥、食品、化工等,確實(shí)都是大佬們玩的東西。
合成看板
最后做個(gè)匯總性的看板,加點(diǎn)聯(lián)動(dòng)效果。

時(shí)間比較趕,加上最近確實(shí)比較忙,排版什么的也沒(méi)細(xì)做,大家看個(gè)樂(lè)就好,哈哈。

????小伙伴們,快快用實(shí)踐一下吧!如果在學(xué)習(xí)過(guò)程中,有遇到任何問(wèn)題,歡迎加我好友,我拉你進(jìn)Python學(xué)習(xí)交流群共同探討學(xué)習(xí)。
-------------------?End?-------------------
往期精彩文章推薦:
手把手教你用Pandas庫(kù)對(duì)淘寶原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和分詞處理
Python項(xiàng)目實(shí)戰(zhàn)篇——常用驗(yàn)證碼標(biāo)注&識(shí)別(前端+后端實(shí)現(xiàn)高效率數(shù)據(jù)標(biāo)注)

歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持
想加入Python學(xué)習(xí)群請(qǐng)?jiān)诤笈_(tái)回復(fù)【入群】
萬(wàn)水千山總是情,點(diǎn)個(gè)【在看】行不行
/今日留言主題/
隨便說(shuō)一兩句吧~

