<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          帶你用數(shù)據(jù)分析看透美國(guó)總統(tǒng)大選

          共 3933字,需瀏覽 8分鐘

           ·

          2020-11-20 21:47

          大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自木木自由
          作者:Ruby


          數(shù)據(jù)分析到底是什么?該怎么做?數(shù)據(jù)思維又是什么?數(shù)據(jù)分析怎么應(yīng)用到日常工作生活?


          為了更好的理解數(shù)據(jù)分析的這些問(wèn)題,我們來(lái)結(jié)合美國(guó)大選這個(gè)具體例子,帶著大家做一場(chǎng)“探索性數(shù)據(jù)分析”。


          第一步:確定分析目的

          ?

          美國(guó)總統(tǒng)大選投票結(jié)果已公布,一陣熱鬧過(guò)后,是否好奇,想看清這場(chǎng)“鬧劇”是怎么回事?出于這個(gè)目的,我們收集數(shù)據(jù),來(lái)做一次“探索性數(shù)據(jù)分析”之旅。


          第二步:理解業(yè)務(wù)

          ?

          看著選票地圖,很多人想不通的是,為什么老百姓都參加了投票,但是官方顯示的票數(shù),每個(gè)州只有幾票?這些票到底怎么來(lái)的?

          ? ? ? ??? ? ?
          這就和美國(guó)的選舉規(guī)則有關(guān),美國(guó)各州人民都參與了投票,但是總統(tǒng)并不是由他們直接選出來(lái)的,能投票選總統(tǒng)的是另外一波人“國(guó)會(huì)議員”:
          ? ? ? ??? ? ?
          既然是議員投票選總統(tǒng),選民還投票干嘛?

          這和另外一個(gè)規(guī)則有關(guān),雖然議員的票數(shù)決定了誰(shuí)做總統(tǒng),但是議員不能決定自己想投給誰(shuí),而是由選民決定的,也就是說(shuō),全體選民投票的結(jié)果決定議員的票給誰(shuí)。比如:阿拉巴馬州有超過(guò)50%的選民投票給A,那么這個(gè)州所有議員的票都屬于A,這個(gè)規(guī)則叫“贏家通吃”。

          所以我們看到各州的投票結(jié)果顯示 XX : 0 贏的人得到所有選票,輸?shù)娜艘粡堃驳貌坏健?/span>


          總統(tǒng)選舉背景材料(近三屆的候選人和黨派)

          第三步:確定研究指標(biāo)

          ?

          理解完業(yè)務(wù),開(kāi)始產(chǎn)生以下疑問(wèn):
          有哪些州??
          選舉的州作為指標(biāo):需要所有州的名字
          ?
          每個(gè)州可以投多少票??
          每個(gè)州的投票數(shù):需要所有州對(duì)應(yīng)的投票票數(shù)
          ?
          這些票最后投給了誰(shuí)??但是每一屆參與選舉的候選人都不一樣,這個(gè)“誰(shuí)”,在不同的選舉年份中怎么做交叉對(duì)比?

          想到的字段:每次選舉的兩個(gè)人分別代表兩個(gè)黨派,為了做交叉對(duì)比,得票的主體用“黨派”

          第四步:找原始數(shù)據(jù)

          ?

          1、尋找美國(guó)州名的數(shù)據(jù)。

          在電腦上搜索到有州名的網(wǎng)頁(yè),上面看到一張州名列表。我們用EXCEL根據(jù)以下步驟把這張表提取出來(lái)。
          ? ? ? ?
          ? ? ? ??? ? ?
          ? ? ? ?? ? ??
          ? ? ? ?? ? ? ?? ? ??? ? ? ?? ? ??? ? ? ?
          2、獲取近三年的選票數(shù)據(jù)。
          在網(wǎng)上找到2016年選票數(shù)據(jù),用EXCEL直接獲取下來(lái)。(步驟如上略)
          ? ? ? ??? ? ?
          但是找2012年選票數(shù)據(jù)的時(shí)候,只找到一個(gè)選票地圖
          ? ? ? ??? ? ?
          再去找2020年選票,找到最詳細(xì)的數(shù)據(jù),復(fù)制時(shí)發(fā)現(xiàn)是“圖片格式”!
          ? ? ???? ? ?
          那我們?cè)趺传@得圖片里這些數(shù)據(jù),難道要抄下來(lái)?

          不!我們是“數(shù)據(jù)分析師”,我們要專(zhuān)業(yè),不能手抄,我們用Python!

          Python獲取圖片中信息:
          市面上有免費(fèi)圖片文字識(shí)別的開(kāi)源功能,我們只需要調(diào)用相應(yīng)接口,此處選擇了百度的圖片文字識(shí)別。
          思路:用Python 調(diào)用現(xiàn)成的“圖片文字識(shí)別接口”,識(shí)別提取兩張圖片中的文字?jǐn)?shù)字信息。
          ? ? ? ??? ? ?
          ? ? ? ??? ? ?
          ?
          ? ? ? ??? ? ?
          ? ? ? ??? ? ?
          ? ? ? ??? ? ?
          按照教程先安裝“百度接口包”
          打開(kāi)python的shell?如下圖安裝“百度接口包”
          ? ? ? ??? ? ?
          ? ? ? ??? ? ?
          ?
          再按照教程“新建AipOcr”
          打開(kāi)自己的Python編輯器(此處我用的是PyCharm),把教程上的代碼拷貝到PyCharm
          ? ? ? ???
          以上步驟是生成一個(gè)Client對(duì)象,這個(gè)對(duì)象能調(diào)用“百度接口”里面的各種功能接口。

          那么下一步告訴python,這個(gè)對(duì)象要去調(diào)用哪個(gè)接口。如下圖我們之前選擇了“通用文字識(shí)別(高精度版)”
          ? ? ??? ? ? ?? ? ? ?? ? ? ?
          在接口說(shuō)明里,找到了這個(gè)接口的調(diào)用方法,按照教程,把需要的部分拷貝下來(lái)
          ? ? ? ??? ? ?
          獲取完官方標(biāo)準(zhǔn)的教程代碼,現(xiàn)在我們來(lái)完善他。去“控制臺(tái)”注冊(cè)登錄賬號(hào)和創(chuàng)建應(yīng)用。
          ? ? ? ?? ? ? ?? ? ??
          ? ? ??
          ? ? ??? ? ? ?
          更新完ID再告訴python是哪張圖片
          ? ? ? ?? ? ? ?
          Python默認(rèn)去識(shí)別同一個(gè)項(xiàng)目文件夾下的圖片,所以把之前網(wǎng)絡(luò)上找到圖片直接保存在python這個(gè)代碼的文件夾下
          ? ? ? ??? ? ?
          ?
          當(dāng)然也可以再調(diào)用兩個(gè)包,做成“截圖,保存,識(shí)別文字,三個(gè)步驟一體的python小工具”,此處不做展開(kāi)。

          最終修改完成的代碼如下:

          from aip import AipOcr ??# 要先完成 pip install baidu-aip
          ?
          #""" 你的 APPID AK SK """
          APP_ID = '你的APP_ID'
          API_KEY = '你的API_KEY'
          SECRET_KEY = '你的SECRET_KEY'
          ?
          client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
          ?
          while 1:
          ????#""" 讀取圖片 """
          ????def get_file_content(filePath):
          ????????with open(filePath, 'rb') as fp:
          ????????????return fp.read()
          ?
          ????image = get_file_content('2020vote.jpg')
          ?
          ????#""" 調(diào)用通用文字識(shí)別(高精度版) """
          ????client.basicAccurate(image);
          ????message = client.basicAccurate(image)
          ????message_result = message['words_result']
          ?
          ????for i in message_result:
          ????????print(i['words'])
          ? ? break
          ? ? ? ?
          ? ? ??

          第五步:數(shù)據(jù)清洗


          此處數(shù)據(jù)量不大,把獲取的數(shù)據(jù)放在excel里面清洗后,得到格式統(tǒng)一的表。
          ? ? ? ?? ? ?? ???

          第六步:數(shù)據(jù)分析


          有清洗干凈的完整數(shù)據(jù)之后,我們開(kāi)始探索分析,這里用一種簡(jiǎn)單又低成本的方式:Power BI

          ? ? ??? ? ?

          為了便于分析,再載入一張年份表和一張黨派表


          ??? ? ? ?
          ?
          全部載入后,在Power?BI里面做一個(gè)簡(jiǎn)單建模
          ? ? ???? ?
          先做個(gè)選票地圖看看
          ? ? ? ??? ? ?
          看著做完的地圖,似乎發(fā)現(xiàn)了些什么!

          首先,氣泡大小代表州的票數(shù),雖然每年根據(jù)人口數(shù)量相應(yīng)票數(shù)有變化,但是大體基本一致。
          其次,這三張圖,看著很相似,顏色的分布變化不大。也就是說(shuō),每年都有一些固定支持共和黨或者固定支持民主黨的州。
          最后,有少部分州,是每年支持的黨派都不一樣。
          ?
          這部分的結(jié)論是:雖然每次選總統(tǒng)是兩個(gè)人競(jìng)選,但其實(shí)支持他們的人,很多是出于這些人所在的黨派。
          ?
          再去探索一下票數(shù)
          ? ? ? ??? ? ?
          可以看出每個(gè)不同的州,票數(shù)相差很遠(yuǎn),有約20%左右的州,占到總票數(shù)一半以上。也就是以下地區(qū)可投選票的數(shù)量較多
          ? ? ? ?


          這部分結(jié)論是:盡量去爭(zhēng)取上圖的州,獲勝機(jī)會(huì)大。
          ?

          第七步:得出結(jié)論

          ?

          最后總結(jié)數(shù)據(jù)分析結(jié)論如下:
          1、有部分州,每年都一定選擇共和黨或者一定選擇民主黨,剩下小部分州會(huì)在兩黨之間搖擺,也就是說(shuō),美國(guó)總統(tǒng)大選,候選人背后代表的黨派影響力,大于他們個(gè)人的影響力。
          2、從競(jìng)選策略上來(lái)說(shuō),每年可以“不用太關(guān)心”一定會(huì)投票給自己黨派的州,應(yīng)該把重點(diǎn)放在“搖擺州”上。而“搖擺州”應(yīng)該先從上圖中占票數(shù)多的州開(kāi)始爭(zhēng)取,然后再根據(jù)各州的票數(shù)占比,區(qū)分輕重緩急依次做競(jìng)選攻略。


          總結(jié)

          ?

          做了一次完整數(shù)據(jù)分析,讓我們回顧整個(gè)步驟:
          第一步:確定分析目的
          第二步:理解業(yè)務(wù)
          第三步:確定研究指標(biāo)
          第四步:尋找原始數(shù)據(jù)
          第五步:數(shù)據(jù)清洗
          第六步:數(shù)據(jù)分析
          第七步:總結(jié)結(jié)論

          以上就是一次標(biāo)準(zhǔn)又簡(jiǎn)潔的數(shù)據(jù)分析全過(guò)程演示。然而,在實(shí)際的業(yè)務(wù)分析中,一般在第七步得到了結(jié)論后還會(huì)回到第一步分析的目的,去與業(yè)務(wù)或者運(yùn)營(yíng)人員溝通,反饋結(jié)論,比如是否有異常、異常原因、下一步動(dòng)作等事宜,這也就使數(shù)據(jù)分析形成了“閉環(huán)”。然后相關(guān)業(yè)務(wù)人員再次提出疑問(wèn)去確立新的分析目標(biāo),通過(guò)如此反復(fù)的迭代優(yōu)化及分析,可提高營(yíng)銷(xiāo)活動(dòng)有效性,提高投資回報(bào)率等等數(shù)據(jù)指標(biāo)……“閉環(huán)”其實(shí)就是“揚(yáng)長(zhǎng)避短”,讓數(shù)據(jù)引導(dǎo)動(dòng)作到更有價(jià)值的地方,實(shí)現(xiàn)資源配置最大化,也就是所謂的數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)。
          ?
          總而言之,數(shù)據(jù)分析的有趣之處就是,當(dāng)你把自己想成福爾摩斯的話,那數(shù)據(jù)背后一定存在真相。也由此可見(jiàn),數(shù)據(jù)分析的應(yīng)用范圍很廣,在各行各業(yè)都可以滲透,為什么可以滲透?那是因?yàn)楦餍懈鳂I(yè)都離不開(kāi)數(shù)字,只要有數(shù)字的地方,就有數(shù)據(jù)分析的用武之地;且數(shù)據(jù)分析的內(nèi)容也可以很深,從加減乘除算數(shù)運(yùn)算,到建?;貧w機(jī)器學(xué)習(xí),都已經(jīng)廣泛運(yùn)用起來(lái)了;從上面的分析看,數(shù)據(jù)分析的工具那更是數(shù)不勝數(shù),爬蟲(chóng)、清洗、可視化、數(shù)據(jù)庫(kù)等,只有你想不到的,沒(méi)有市場(chǎng)上滿足不了需求的。數(shù)據(jù)分析就像一雙翅膀能讓你飛得更遠(yuǎn),希望大家通過(guò)這個(gè)具體的例子,學(xué)會(huì)用數(shù)據(jù)分析賦能到你工作生活的方方面面。



          實(shí)習(xí)/全職編輯記者招聘ing

          加入我們,親身體驗(yàn)一家專(zhuān)業(yè)科技媒體采寫(xiě)的每個(gè)細(xì)節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長(zhǎng)。坐標(biāo)北京·清華東門(mén),在大數(shù)據(jù)文摘主頁(yè)對(duì)話頁(yè)回復(fù)“招聘”了解詳情。簡(jiǎn)歷請(qǐng)直接發(fā)送至[email protected]





          點(diǎn)「在看」的人都變好看了哦!
          瀏覽 126
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷人人爽| 日皮在线观看 | 一级片在线视频播放 | avtt在线看 | 中曰韩欧美一级 |