全球最美Top100女神出爐,國內(nèi)六人上榜,我Python發(fā)現(xiàn)了這些秘密...
擊上方“Python爬蟲與數(shù)據(jù)挖掘”,進(jìn)行關(guān)注
回復(fù)“書籍”即可獲贈Python從入門到進(jìn)階共10本電子書

最近一段時間,國外媒體TOP BEAUTY WORLD選取了全球最帥男性和最美女性前100名,肖戰(zhàn)成為了該排行榜歷屆以來首位登頂?shù)膩喼奕?/strong>。這一消息立刻成為了流量的熱點(diǎn)。
小編特地去查了一下,想看一下榜單中的最美小姐姐的信息。可是現(xiàn)在還沒有最美小姐姐的文字榜單信息。但是小編卻查到了2019年年底發(fā)布的上一屆的全球最美女性前一百名的詳細(xì)榜單,包含了姓名、國籍和職業(yè)等信息。

有這么詳盡的榜單,我們怎么能不拿來好好的探究一波?小編馬上爬取了數(shù)據(jù),并進(jìn)行了數(shù)據(jù)的可視化分析,一起來看看吧。
評價指標(biāo)
對于排行榜的評比,不單單是對于美貌的評選。榜單是根據(jù)下面公式進(jìn)行打分。
總分=0.3粉絲投票+0.5官方針對入圍明星的五官比例給出的分?jǐn)?shù)+0.2*(個性、身材、慈善工作等)
可以看到,打分成績中,綜合的考慮了許多方面的因素,能從選手的全方位進(jìn)行綜合的分析和打分評比。明白了打分的評價指標(biāo)后,我們接下來就看一下如何獲取該份榜單的數(shù)據(jù)吧。
女神數(shù)據(jù)獲取

首先,我們要獲取到想要的數(shù)據(jù),包括小姐姐的照片,姓名以及國籍等信息。由于網(wǎng)頁屬于靜態(tài)網(wǎng)頁,因此可以直接分析網(wǎng)頁源代碼,獲取到我們需要的數(shù)據(jù)即可。程序如下圖所示:

上述的程序中,我們首先利用requests請求網(wǎng)頁,然后利用BeautifulSoup解析網(wǎng)頁。這里需要注意的是,不同的li標(biāo)簽的“id"是根據(jù)排名來進(jìn)行變化的。
所以我們要通過循環(huán)來構(gòu)建不同的id屬性,以此來抓取對應(yīng)的li標(biāo)簽,并提取姓名、國籍等信息。
利用self.downloadImg函數(shù)將圖片下載到本地,將抓取到的姓名和國籍等信息保存到本地。抓取到的信息如下所示:

對頂級女神數(shù)據(jù)分析
獲取到數(shù)據(jù)后,我們來對數(shù)據(jù)進(jìn)行一下清晰,并看一下從數(shù)據(jù)中能獲得什么信息。
1).大洲信息統(tǒng)計(jì)

可以看到,美女們來自全球各地,這里我們以國家為統(tǒng)計(jì)單位,統(tǒng)計(jì)各個大洲上國家出現(xiàn)的次數(shù),注意,上面的”Filipina-American“,我們將其統(tǒng)計(jì)兩次,即既是菲律賓人也是美國人。通過下面的程序,我們可以可視化的展示出不同大洲國家出現(xiàn)的次數(shù)。

可以看到,全球一百名美女來自了除南極洲之外的其他六個大洲,其中來自亞洲的國家是最多的,歐洲和北美洲緊隨其后。
2).國籍信息統(tǒng)計(jì)
對于美女國籍的統(tǒng)計(jì)和可視化處理,是一件非常麻煩的事情,這里需要針對數(shù)據(jù)進(jìn)行耐心的判斷處理,雖然非常消耗時間,但是好在數(shù)量并不是很多,如下圖所示:

我們針對于不同美女的不同國家信息,只需要進(jìn)行循環(huán)判斷,例如如果美女的國家是”Thai",我們就將其國家補(bǔ)充為“Thailand”。因?yàn)樵诤罄m(xù)利用pyecharts可視化過程中,我們需要利用pyecharts自帶的標(biāo)準(zhǔn)國家名稱來顯示,否則的話就沒有辦法進(jìn)行數(shù)字的顯示。經(jīng)過判斷統(tǒng)計(jì)后,其可視化結(jié)果如下。

可以看到,這一百名美女中,來自美國的是最多的,當(dāng)然,不可否認(rèn)的是很多都是持有美國和其他國家的雙重國籍身份的。來自英國的是13名美女,當(dāng)然也是有許多是持有雙重國籍的身份。
而第三名的中國和韓國則是完全不存在雙重國籍的問題。從全球的分布范圍來看,非洲和歐洲的人數(shù)直觀看上去非常的少,尤其是意大利、法國等一些歐洲國家,都沒有如選前100名的美女出現(xiàn)。
3).職業(yè)分析
對于榜單中美女們的職業(yè),這里也是非常的集中,只有三種職業(yè):模特、演員、歌手。毫無疑問,每一個職業(yè)都是需要自身的條件非常的完美。

而在職業(yè)的占比中,可以看到演員的占比是最高的,因?yàn)轭佒凳且粋€演員的名片,也是打分成績中占比最高的一項(xiàng),因此在前100名中,演員占比最高也就不足為奇了。
4).顏值打分
既然這個榜單是關(guān)于全球最美的100名女性,那顏值自然是逃不開的話題,最后,我們來利用百度的人臉識別來為100名美女的顏值做一個打分,來看一下究竟在AI的眼中,誰是最美的女明星。

上述程序中,通過向FaceScore函數(shù)傳遞圖片的路徑,在FaceScore函數(shù)中,通過get_file_content函數(shù)將圖片以二進(jìn)制形式讀取;
并通過base64庫進(jìn)行編碼后,作為params參數(shù)post給請求url鏈接。并解析url鏈接返回的信息,提取返回信息中的顏值打分?jǐn)?shù)據(jù);
運(yùn)行上述的程序后,我們就會得到關(guān)于100名美女的AI顏值打分。這里 我們?yōu)榇蠹艺故疽幌拢佒荡蚍智拔迕加心男┟餍恰?/span>

以上就是小編今天為大家?guī)淼年P(guān)于全球最美100名女性的分享,歡迎大家在留言區(qū)吱一聲,說說你最喜歡哪一位女神哦!
-------------------?End?-------------------
往期精彩文章推薦:

歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持
想加入Python學(xué)習(xí)群請?jiān)诤笈_回復(fù)【入群】
萬水千山總是情,點(diǎn)個【在看】行不行
/今日留言主題/
隨便說一兩句吧~~
