帶你用數(shù)據(jù)分析看透美國總統(tǒng)大選
導(dǎo)讀:很多小伙伴都在問,數(shù)據(jù)分析到底是什么?該怎么做?數(shù)據(jù)思維又是什么?數(shù)據(jù)分析怎么應(yīng)用到日常工作生活?你會(huì)發(fā)現(xiàn)得到各種各樣的答案——有人說數(shù)分不就是做表嘛,有人說不對(duì)不對(duì),數(shù)分就是做分析報(bào)告,還有人說,數(shù)分就是大數(shù)據(jù),是人工智能。按我說呢,這些都對(duì),也都不對(duì),因?yàn)檫@只是大家看到的冰山一角。
其實(shí),數(shù)學(xué)的應(yīng)用從游牧?xí)r代開始,就已經(jīng)涉及到數(shù)據(jù)分析了。今天抓了一頭野豬,明天抓了一頭羊,所以獵物總共有兩只,怎么分配呢?羊可以養(yǎng)起來,因?yàn)檠蚩梢援a(chǎn)奶,給孩子補(bǔ)充營養(yǎng),豬可以殺掉,一天吃不完,那就分兩天吃,首領(lǐng)分多一些,其他人分少一些……大家留意到?jīng)]有,這正好是數(shù)據(jù)分析的思維。這個(gè)思維延伸到現(xiàn)在,就變成了,公司今天收入多少,獎(jiǎng)勵(lì)池可以多分一些給貢獻(xiàn)度大的員工,然后剩余的可以當(dāng)做下個(gè)季度激勵(lì)方案的獎(jiǎng)金……總之,數(shù)據(jù)分析的歷史很悠久,可以說從人們開始使用數(shù)字的時(shí)候開始就已經(jīng)有數(shù)分的意識(shí)了。
那么,為了更好的理解數(shù)據(jù)分析的這些問題,我們現(xiàn)在來結(jié)合美國大選這個(gè)具體例子,帶著大家做一場“探索性數(shù)據(jù)分析”。
美國總統(tǒng)大選投票結(jié)果已公布,一陣熱鬧過后,是否好奇,想看清這場“鬧劇”是怎么回事?出于這個(gè)目的,我們收集數(shù)據(jù),來做一次“探索性數(shù)據(jù)分析”之旅。
看著選票地圖,很多人想不通的是,為什么老百姓都參加了投票,但是官方顯示的票數(shù),每個(gè)州只有幾票?這些票到底怎么來的?
這就和美國的選舉規(guī)則有關(guān),美國各州人民都參與了投票,但是總統(tǒng)并不是由他們直接選出來的,能投票選總統(tǒng)的是另外一波人“國會(huì)議員”:
既然是議員投票選總統(tǒng),選民還投票干嘛?
這和另外一個(gè)規(guī)則有關(guān),雖然議員的票數(shù)決定了誰做總統(tǒng),但是議員不能決定自己想投給誰,而是由選民決定的,也就是說,全體選民投票的結(jié)果決定議員的票給誰。比如:阿拉巴馬州有超過50%的選民投票給A,那么這個(gè)州所有議員的票都屬于A,這個(gè)規(guī)則叫“贏家通吃”。
所以我們看到各州的投票結(jié)果顯示 XX : 0 贏的人得到所有選票,輸?shù)娜艘粡堃驳貌坏健?/span>
總統(tǒng)選舉背景材料(近三屆的候選人和黨派)

理解完業(yè)務(wù),開始產(chǎn)生以下疑問:
有哪些州?
選舉的州作為指標(biāo):需要所有州的名字
每個(gè)州可以投多少票?
每個(gè)州的投票數(shù):需要所有州對(duì)應(yīng)的投票票數(shù)
這些票最后投給了誰? 但是每一屆參與選舉的候選人都不一樣,這個(gè)“誰”,在不同的選舉年份中怎么做交叉對(duì)比?
想到的字段:每次選舉的兩個(gè)人分別代表兩個(gè)黨派,為了做交叉對(duì)比,得票的主體用“黨派”

1、尋找美國州名的數(shù)據(jù)。
在電腦上搜索到有州名的網(wǎng)頁,上面看到一張州名列表。我們用EXCEL根據(jù)以下步驟把這張表提取出來。

2、獲取近三年的選票數(shù)據(jù)。
在網(wǎng)上找到2016年選票數(shù)據(jù),用EXCEL直接獲取下來。(步驟如上略)
但是找2012年選票數(shù)據(jù)的時(shí)候,只找到一個(gè)選票地圖
再去找2020年選票,找到最詳細(xì)的數(shù)據(jù),復(fù)制時(shí)發(fā)現(xiàn)是“圖片格式”!
那我們?cè)趺传@得圖片里這些數(shù)據(jù),難道要抄下來?
不!我們是“數(shù)據(jù)分析師”,我們要專業(yè),不能手抄,我們用Python!
Python獲取圖片中信息:
市面上有免費(fèi)圖片文字識(shí)別的開源功能,我們只需要調(diào)用相應(yīng)接口,此處選擇了百度的圖片文字識(shí)別。
思路:用Python 調(diào)用現(xiàn)成的“圖片文字識(shí)別接口”,識(shí)別提取兩張圖片中的文字?jǐn)?shù)字信息。
按照教程先安裝“百度接口包”
打開python的shell 如下圖安裝“百度接口包”
再按照教程“新建AipOcr”
打開自己的Python編輯器(此處我用的是PyCharm),把教程上的代碼拷貝到PyCharm
以上步驟是生成一個(gè)Client對(duì)象,這個(gè)對(duì)象能調(diào)用“百度接口”里面的各種功能接口。
那么下一步告訴python,這個(gè)對(duì)象要去調(diào)用哪個(gè)接口。如下圖我們之前選擇了“通用文字識(shí)別(高精度版)”
在接口說明里,找到了這個(gè)接口的調(diào)用方法,按照教程,把需要的部分拷貝下來
獲取完官方標(biāo)準(zhǔn)的教程代碼,現(xiàn)在我們來完善他。去“控制臺(tái)”注冊(cè)登錄賬號(hào)和創(chuàng)建應(yīng)用。


更新完ID再告訴python是哪張圖片
Python默認(rèn)去識(shí)別同一個(gè)項(xiàng)目文件夾下的圖片,所以把之前網(wǎng)絡(luò)上找到圖片直接保存在python這個(gè)代碼的文件夾下
當(dāng)然也可以再調(diào)用兩個(gè)包,做成“截圖,保存,識(shí)別文字,三個(gè)步驟一體的python小工具”,此處不做展開。
最終修改完成的代碼如下:
break

有清洗干凈的完整數(shù)據(jù)之后,我們開始探索分析,這里用一種簡單又低成本的方式:Power BI

為了便于分析,再載入一張年份表和一張黨派表
全部載入后,在Power BI里面做一個(gè)簡單建模
看著做完的地圖,似乎發(fā)現(xiàn)了些什么!
首先,氣泡大小代表州的票數(shù),雖然每年根據(jù)人口數(shù)量相應(yīng)票數(shù)有變化,但是大體基本一致。
其次,這三張圖,看著很相似,顏色的分布變化不大。也就是說,每年都有一些固定支持共和黨或者固定支持民主黨的州。
最后,有少部分州,是每年支持的黨派都不一樣。
這部分的結(jié)論是:雖然每次選總統(tǒng)是兩個(gè)人競選,但其實(shí)支持他們的人,很多是出于這些人所在的黨派。
再去探索一下票數(shù)
可以看出每個(gè)不同的州,票數(shù)相差很遠(yuǎn),有約20%左右的州,占到總票數(shù)一半以上。也就是以下地區(qū)可投選票的數(shù)量較多
這部分結(jié)論是:盡量去爭取上圖的州,獲勝機(jī)會(huì)大。
最后總結(jié)數(shù)據(jù)分析結(jié)論如下:
1、有部分州,每年都一定選擇共和黨或者一定選擇民主黨,剩下小部分州會(huì)在兩黨之間搖擺,也就是說,美國總統(tǒng)大選,候選人背后代表的黨派影響力,大于他們個(gè)人的影響力。
2、從競選策略上來說,每年可以“不用太關(guān)心”一定會(huì)投票給自己黨派的州,應(yīng)該把重點(diǎn)放在“搖擺州”上。而“搖擺州”應(yīng)該先從上圖中占票數(shù)多的州開始爭取,然后再根據(jù)各州的票數(shù)占比,區(qū)分輕重緩急依次做競選攻略。
總結(jié)
做了一次完整數(shù)據(jù)分析,讓我們回顧整個(gè)步驟:
第一步:確定分析目的
第二步:理解業(yè)務(wù)
第三步:確定研究指標(biāo)
第四步:尋找原始數(shù)據(jù)
第五步:數(shù)據(jù)清洗
第六步:數(shù)據(jù)分析
第七步:總結(jié)結(jié)論
以上就是一次標(biāo)準(zhǔn)又簡潔的數(shù)據(jù)分析全過程演示。然而,在實(shí)際的業(yè)務(wù)分析中,一般在第七步得到了結(jié)論后還會(huì)回到第一步分析的目的,去與業(yè)務(wù)或者運(yùn)營人員溝通,反饋結(jié)論,比如是否有異常、異常原因、下一步動(dòng)作等事宜,這也就使數(shù)據(jù)分析形成了“閉環(huán)”。然后相關(guān)業(yè)務(wù)人員再次提出疑問去確立新的分析目標(biāo),通過如此反復(fù)的迭代優(yōu)化及分析,可提高營銷活動(dòng)有效性,提高投資回報(bào)率等等數(shù)據(jù)指標(biāo)……“閉環(huán)”其實(shí)就是“揚(yáng)長避短”,讓數(shù)據(jù)引導(dǎo)動(dòng)作到更有價(jià)值的地方,實(shí)現(xiàn)資源配置最大化,也就是所謂的數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)。
總而言之,數(shù)據(jù)分析的有趣之處就是,當(dāng)你把自己想成福爾摩斯的話,那數(shù)據(jù)背后一定存在真相。也由此可見,數(shù)據(jù)分析的應(yīng)用范圍很廣,在各行各業(yè)都可以滲透,為什么可以滲透?那是因?yàn)楦餍懈鳂I(yè)都離不開數(shù)字,只要有數(shù)字的地方,就有數(shù)據(jù)分析的用武之地;且數(shù)據(jù)分析的內(nèi)容也可以很深,從加減乘除算數(shù)運(yùn)算,到建?;貧w機(jī)器學(xué)習(xí),都已經(jīng)廣泛運(yùn)用起來了;從上面的分析看,數(shù)據(jù)分析的工具那更是數(shù)不勝數(shù),爬蟲、清洗、可視化、數(shù)據(jù)庫等,只有你想不到的,沒有市場上滿足不了需求的。數(shù)據(jù)分析就像一雙翅膀能讓你飛得更遠(yuǎn),希望大家通過這個(gè)具體的例子,學(xué)會(huì)用數(shù)據(jù)分析賦能到你工作生活的方方面面。
--end--
掃描下方二維碼
添加好友,備注【交流】 可私聊交流,也可進(jìn)資源豐富學(xué)習(xí)群
