分析了獲得家庭搖號(hào)新能源指標(biāo)的數(shù)據(jù)后,我發(fā)現(xiàn)了一個(gè)秘密

圖:清華主樓,from 一個(gè)師弟的朋友圈
關(guān)于作者:程序猿石頭(ID: tangleithu),現(xiàn)任阿里巴巴技術(shù)專家,清華學(xué)渣,前大疆后端 Leader。用不同的視角分享高質(zhì)量技術(shù)文章,以每篇文章都讓人有收獲為目的,歡迎關(guān)注,交流和指導(dǎo)!
背景
這兩天公布了北京首批家庭新能源小客車指標(biāo)積分排序結(jié)果。
當(dāng)然,意料之中,很遺憾,本人并未入圍,排名 8W 左右。看樣子,要想新能源積分排序上去,還得抓緊增加家庭代際數(shù)啊,假設(shè)生個(gè)娃,我的分?jǐn)?shù)直接近 60 了,還是有希望能盡快排到的。

看看數(shù)據(jù)漲啥樣
讓我們來看看這些數(shù)據(jù)都是怎樣的?
網(wǎng)站下載了 pdf,不便于分析,顯然作為程序猿還是習(xí)慣用程序員的方式來進(jìn)行分析,首先還是先轉(zhuǎn)為純文本文件吧,可轉(zhuǎn)換為 csv。(官網(wǎng)下載地址:https://www.bjhjyd.gov.cn/jggb/2020910/1599732631719_1.htm)
網(wǎng)上有工具,可上傳 pdf,轉(zhuǎn) csv。 可以直接 copy 出來,粘貼純文本即可。筆者采用了這種方式很快。
有了前面這兩篇文章作為基礎(chǔ),下面這些數(shù)據(jù)可輕易獲得:
因?yàn)?copy 出來純文本,姓名和身份證連在一起了,需要拆分一下,很簡(jiǎn)單:
cat?car2020.csv?|?awk?'{print?substr($3,?1,?match($3,/[0-9]/)-1)?"\t"??substr($3,?match($3,/[0-9]/))?"\t"?$4?"\t"?$5?"\t"?$6?"\t"?$7}'?>?car-2020.csv?

分?jǐn)?shù)分析
首先,文件結(jié)果直接按照分?jǐn)?shù)倒序的。
最高分 228 分,家庭共 7 個(gè)人組成。 最低分 72 分,2 代 4 人的家庭居多,也有 3 代 4 人的。
cat?car-2020.csv?|?awk?'{print?$5}'??|?uniq?-c??|?sort?-k?1?-nr


看看分?jǐn)?shù)的分布,大多數(shù)圍繞著 70 -120 分之間,占比 80%。
家庭情況
家庭代數(shù), 近 70% 為 3 代人。
??Downloads?cat?car-2020.csv?|?awk?'{print?$4}'??|?sort?|?uniq?-c
6621?2
13379?3

家庭人口數(shù),居然還有 9 口人的??戳讼拢? 口人 3 代,猜測(cè) 雙方父母 4 + 兩口 2 + 3 小孩?還是怎樣的,我看家庭主要申請(qǐng)人也是從第一期就開始申請(qǐng)搖號(hào)了,這么大一家人,也沒個(gè)車牌,也是不容易啊。

???Downloads?cat?car-2020.csv?|?awk?'{print?$3}'??|?sort?|?uniq?-c
4245?3
5124?4
6912?5
2284?6
1240?7
?193?8
???2?9
主申請(qǐng)人
太多人從第一年就開始了參與搖號(hào)了。
???Downloads?cat?car-2020.csv?|?awk?'{print?substr($6,?1,?4)}'??|?sort?|?uniq?-c
6874?2011
7401?2012
3729?2013
1384?2014
?482?2015
?111?2016
??19?2017

看了下,從第一期搖號(hào)的就有 1367 個(gè)。
???Downloads?cat?car-2020.csv?|?awk?'{print?substr($6,?1,?7)}'??|?sort?|?uniq?-c?
1367?2011-01
?797?2011-02
?665?2011-03
?519?2011-04
?473?2011-05
?356?2011-06
?424?2011-07
?448?2011-08
?407?2011-09
?516?2011-10
?434?2011-11
?468?2011-12
中簽者老家哪里的?
這個(gè),需要借助身份證號(hào)對(duì)應(yīng)的行政區(qū)域了,思路跟之前 沒想到 Shell 命令竟然還能這么玩?| Shell 玩轉(zhuǎn)大數(shù)據(jù)分析?這篇文章上一樣,直接給結(jié)論吧。
先看按照省這個(gè)級(jí)別來劃分的。
???Downloads?join?-1?2?-2?1?<(cat?car-2020.csv?|?awk?'{print?substr($2,?1,?2)}'?|sort?|?uniq?-c?|?sort?-k1?-nr?|?head?-n?30?|?sort?-k2)?id-area.code2.sort.txt?|?sort?-k2?-nr
11?14792?北京市
13?1101?河北省
37?638?山東省
41?360?河南省
14?330?山西省
23?296?黑龍江省
21?291?遼寧省
42?239?湖北省
15?224?內(nèi)蒙古自治區(qū)
22?217?吉林省
43?175?湖南省
61?174?陜西省
34?169?安徽省
32?162?江蘇省
51?161?四川省
36?135?江西省
12?107?天津市
62?82?甘肅省
33?64?浙江省
35?53?福建省
65?46?新疆維吾爾族自治區(qū)
64?34?寧夏回族自治區(qū)
45?33?廣西壯族自治區(qū)
50?21?重慶市
63?19?青海省
53?19?云南省
44?19?廣東省
52?17?貴州省
31?12?上海市
46?6?海南省
第一列:身份證開頭的兩位,基本定位到?。?/section> 第二列:對(duì)應(yīng)的人數(shù) 第三列:對(duì)應(yīng)省

從中可以看出,還是老北京占比最大,占比74%了。石頭想找個(gè)免費(fèi)的熱力地圖生成工具展示一下的,短時(shí)間之類沒找到,先放棄了。
再看看到市區(qū)級(jí)別的,參考身份證前 6 位。
先看看前 30 的吧,基本也就是圍繞著北京了。
???Downloads?join?-1?2?-2?1?<(cat?car-2020.csv?|?awk?'{print?substr($2,?1,?6)}'?|sort?|?uniq?-c?|?sort?-k1?-nr?|?head?-n?30?|?sort?-k2)?address_code_uniq.csv?|?sort?-k2?-nr
110111?1592?房山區(qū)
110223?1531?通縣
110224?1439?大興縣
110108?1109?海淀區(qū)
110105?1108?朝陽區(qū)
110222?1075?順義縣
110229?846?延慶縣
110106?734?豐臺(tái)區(qū)
110221?725?昌平縣
110226?610?平谷縣
110228?599?密云縣
110102?570?西城區(qū)
110227?557?懷柔縣
110101?475?東城區(qū)
110104?471?宣武區(qū)
110109?415?門頭溝區(qū)
110103?382?崇文區(qū)
110107?332?石景山區(qū)
110225?189?房山縣
131082?43?三河市
230103?34?南崗區(qū)
140202?28?城區(qū)
110110?25?燕山區(qū)
220104?24?朝陽區(qū)
150102?23?新城區(qū)
130102?23?長安區(qū)
610103?22?碑林區(qū)
130203?21?路北區(qū)
420106?19?武昌區(qū)
130681?18?涿州市
其中,address_code_uniq.csv 來自 https://raw.githubusercontent.com/jxlwqq/address-code-of-china/master/address_code.csv,有個(gè)坑的地方就是政府官方網(wǎng)站下載的行政區(qū)域代碼數(shù)據(jù) http://www.mca.gov.cn//article/sj/xzqh/2020/是最新的,有的行政區(qū)域代碼已撤銷,不再使用。(幸虧石頭校驗(yàn)了一下結(jié)果數(shù)據(jù)綜合,發(fā)現(xiàn)和總數(shù) 2000 相差比較大)
但之前已經(jīng)核發(fā)的身份證總不能作廢吧。舉個(gè)例子:行政區(qū)劃代碼110223(北京市 通縣)已撤銷,新發(fā)的身份證中不再使用。
另外,還發(fā)現(xiàn)有一例不是用身份證號(hào)碼作為證件號(hào)碼的?看樣子是護(hù)照?CH1HFP********?這個(gè),我也不懂了,有知道的朋友么?
先就這么多吧。另外,若感興趣的朋友需要本文分析的數(shù)據(jù)集合用作交流學(xué)習(xí)使用,可回復(fù)“積分排序”獲取處理的 Excel和 CSV 文件。
附《搖號(hào)解題積分對(duì)照表》

回到題目本身,這個(gè)秘?秘密就是:如果要想家庭搖號(hào)盡早“中簽”,那就趕緊生娃吧,哈哈哈
,別打我。

后記
覺得本號(hào)分享的文章有價(jià)值,記得添加星標(biāo)哦。周更很累,不要白 piao,需要來點(diǎn)正反饋,安排個(gè) “一鍵三連”(點(diǎn)贊、在看、分享)如何???這將是我持續(xù)輸出優(yōu)質(zhì)文章的最強(qiáng)動(dòng)力。


Java 15 正式發(fā)布, 好多新特性,刷新你的認(rèn)知!!
GitHub科技?
GitHub科技:每天給你分享一個(gè)GitHub開源項(xiàng)目,以及一些好玩有用的文章,每天都有收獲!
