<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2021中國胡潤百富榜揭曉,Python可視化走一波~

          共 1843字,需瀏覽 4分鐘

           ·

          2021-12-24 18:34

          2021中國胡潤百富榜

          大家好,歡迎來到 Crossin的編程教室 !

          前幾天看到一個(gè)有意思的榜單“中國胡潤百富榜單”,今年是胡潤研究院自1999年以來連續(xù)第23次發(fā)布“胡潤百富榜”,上榜門檻連續(xù)第九年保持20億元。今天就分享一篇案例文章:帶大家分析看看這個(gè)排行榜里都有哪些信息。

          數(shù)據(jù)采集

          數(shù)據(jù)來源:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich

          打開頁面如下我們需要采集前 2000 名榜單人員的基本信息,分析過程十分簡(jiǎn)單:F12 打開開發(fā)者工具。CTRL + R 刷新頁面,就可以看到抓到的數(shù)據(jù)包。https://www.hurun.net/zh-CN/Rank/HsRankDetailsList?num=YUBAO34E&search=&offset=0&limit=20

          采集的鏈接中包含兩個(gè)主要參數(shù),

          • offset:0,頁碼
          • limit:20,限制數(shù)據(jù)量最多 20 條

          代碼抓取的的時(shí)候暴力點(diǎn),直接設(shè)置 limit=2000,即一次請(qǐng)求 2000 條用戶數(shù)據(jù),不用分頁請(qǐng)求。

          思路有了,開始擼代碼!

          import?requests

          headers?=?{
          ????'User-Agent':?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/94.0.4606.54?Safari/537.36'
          }

          params?=?{
          ????'num':?'YUBAO34E',
          ????'offset':?0,
          ????'limit':?2000
          }

          url?=?'https://www.hurun.net/zh-CN/Rank/HsRankDetailsList'
          page_text?=?requests.get(url=url,?headers=headers,?params=params).json()
          page_text

          有數(shù)據(jù)輸出,并且數(shù)據(jù)量看起來也沒問題,下一步開始解析需要的字段。代碼較多這里就不展示了,文末有完整源碼獲取方式!

          由于數(shù)據(jù)包中的信息確實(shí)較多,我只提取了部分需要的字段,大致如下:由于后面需要做地圖,需要省份信息,所以對(duì)出生地字段切割一下,將省份提取出來,圖片字段同樣也要做一些處理,主要是由于我用 Tableau 做圖的原因,如果大家可視化方式不同,完全可以跳過這一步!

          df['birth_place_split']?=?df['birth_place'].str.split('-')
          df['birth_place_split']?=?df['birth_place_split'].apply(lambda?x:''?if?len(x)?==?1?else?x[1])
          df['photo_split']?=?df['photo'].apply(lambda?x:x.split('/')[-1])
          df.head()

          最后將處理好的數(shù)據(jù)集保存到本地。

          可視化

          可視化工具:Tableau 2021.3。

          百富榜TOP10

          由于平時(shí)不怎么關(guān)注這些內(nèi)容,第一次看這個(gè)結(jié)果竟發(fā)現(xiàn)前十的只認(rèn)識(shí) 5、6 個(gè)。我一直還以為首富應(yīng)該是“兩馬”中的一個(gè),現(xiàn)在一看確實(shí)是我跟不少時(shí)代了。。飲料、醫(yī)療保健也這么賺錢的哇!

          百富榜年齡分布

          榜單上的 74% 大佬年齡分布在45~70歲之間,其中58歲的有125人,大部分都是中年。

          百富榜出生地分布

          出生地分布前三名分別是:浙江、廣州、江蘇。

          百富榜熱門產(chǎn)業(yè)

          熱門產(chǎn)業(yè)主要還是房地產(chǎn)、投資、醫(yī)藥、食品、化工等,確實(shí)都是大佬們玩的東西。

          合成看板

          最后做個(gè)匯總性的看板,加點(diǎn)聯(lián)動(dòng)效果。

          時(shí)間比較趕,加上最近確實(shí)比較忙,排版什么的也沒細(xì)做,大家看個(gè)樂就好。

          祝大家早日上榜!

          公眾號(hào)后臺(tái)回復(fù)“胡潤”即可獲取 源碼 + Tableau源文件。

          如果文章對(duì)你有幫助,歡迎轉(zhuǎn)發(fā)/點(diǎn)贊/收藏~

          作者:Python丁小杰

          來源:Python新視野


          _往期文章推薦_

          【可視化】全運(yùn)會(huì)歷屆金牌榜




          如需了解付費(fèi)精品課程教學(xué)答疑服務(wù)
          請(qǐng)?jiān)?strong style="max-width: 100%;overflow-wrap: break-word !important;box-sizing: border-box !important;">Crossin的編程教室內(nèi)回復(fù): 666

          瀏覽 53
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲色婷婷影视 | 成人做爰黄AA片免费看三区动漫 | 91日日日日日 | 国产福利网 | 玩弄吊带少妇性爱在线视频 |