六成大學生認為畢業(yè)十年能年入百萬,這數(shù)據靠譜嗎?

導讀:數(shù)據分析應當如何采集數(shù)據?
近日看到一則新聞,讓我虎軀一震:
新聞下面很多評論都是過來人的口吻在批判,我倒是覺得樂觀總歸是件好事,“想到”是“做到”的前提。子曾經曰:后生可畏,焉知來者之不如今也!某位最近十分低調的“大佬”也曾經曰:夢想還是要有的,萬一實現(xiàn)了呢?
別說剛剛踏入社會意氣風發(fā)的00后了,就我這樣已經畢業(yè)十年的老碼農,也憧憬可以通過自己的努力年入百萬不是嘛。
不過作為一個比大學生多十年經驗的社會人,我來好為人師地灌兩句雞湯:
1. 前途是光明的,但道路是曲折的。年薪百萬不是不可能,但終究是少數(shù)。要超過六成?那一百萬的購買力恐怕也貶值的厲害。(瞧瞧隔壁知乎就知道了:人均百萬,剛下飛機,稀松平常,沒啥稀奇。匿了匿了~)
2. 財富是結果,不是目的。我這不是站在道德的角度說漂亮話,而是以大部分人的心態(tài)來說,如果你只盯著掙錢這個目的,往往只能掙小錢,搞不好還會吃大虧。反倒是專注于做好事情、提升自我能力的那些人,能得到更好的經濟回報。財富就像狗尾巴,追著自己的尾巴只會原地轉圈,但只要向前跑,尾巴永遠會跟著。(狗:你禮貌嗎?)
然后我不禁回憶了一下當年大學時對未來薪資的預期。記得當時我們班有倆同學在食堂一邊啃著一塊五的大排一邊聊天:
A說:你說咱們畢業(yè)后工資能有多少???
B說:我覺得怎么著也得有3000吧!
A想了想說:嗯,我也覺得差不多。
十年下來,這倆人現(xiàn)在有沒有百萬不知道,但三千加個零肯定不在話下。
當年985的畢業(yè)生,月薪三千的“野心”算是保守了。然而放在當年那會兒,在南京河西也是可以買下兩平米的。如今要是能拿河西兩平米房價的月薪,算下來可不就是年薪百萬嗎?從這個角度來看,大家也彼此彼此嘛
來都來了,咱們也來做個調查:
既然說到了問卷調查,這也算是我們經常提到“數(shù)據分析”的一部分。最近我正好在統(tǒng)計學之家(tjxzj.net)上面看到關于收集數(shù)據的幾個不錯的觀點,結合我自己的經驗,來跟大家分享一下。
收集數(shù)據的三個原則 [1]
1. 數(shù)據必須真實
有人說,我這數(shù)據都是真的,沒有造假。這里說的“真實”,并不僅僅說不造假,而是說能反映被調研者的真實想法。像問卷調查這種形式其實就經常會因為問題的設置或者調研的環(huán)境等影響,造成被訪者做出并非完全真實想法的回答。假如一個公司通過內部系統(tǒng)調研員工對公司某些制度的意見,那想必是很難得到真實反饋的。
如果做產品調研,通常來說,不是要看用戶怎么“說”,而是要看用戶怎么“做”。一個很經典的例子,Netflix 根據用戶的觀影行為來分析用戶的觀影喜好,進而確定出《紙牌屋》的類型、導演、主演,并大獲成功。如果僅僅是通過發(fā)放問卷,恐怕會有較大的偏差。
2. 數(shù)據一定要準確
造成數(shù)據不準確的原因有很多,比如監(jiān)控粒度過粗、問卷設置有歧義、樣本過少或過于集中等等。假如我在編程教室搞個調研,可能就得出超六成大學生想學Python;而在B站搞個調研,得出超六成大學生想娶王冰冰這樣的結論也不奇怪。
不準確的數(shù)據源 + 正確的分析邏輯,也只能得出錯誤的結論。
3. 數(shù)據必須是可以使用的
是否可用,其實是一個相對的概念。比如 Netflix 采集了用戶播放時的暫停、快進、跳過等操作,對他們來說這些數(shù)據是有用的、可用的。但如果我把編程教室網站上的視頻教程播放操作也記錄下來,對我來說就是無法使用的。類似的,大量的文本或語言聊天記錄,只有具備相應的分析技術能力,才有分析的價值。
而另一方面,可以使用也不僅僅是技術層面,還有法律層面的考量。俗話說:爬蟲學得好,牢飯吃到飽。這話可不是段子而已。版權、隱私、商業(yè)協(xié)議都是采集數(shù)據之前需要仔細斟酌的。
以上僅僅是數(shù)據采集階段的一些建議,這是數(shù)據分析的最初階段。一個完整的數(shù)據分析流程往往還包括:數(shù)據存儲、數(shù)據清洗、建模分析、數(shù)據可視化等步驟。感興趣的同學可以留言說一下,哪一塊想聽的人多我之后會做詳細解讀。
之前有不少同學問過:要做數(shù)據分析方面的工作,需要學習哪些內容?是不是學會Python就能做數(shù)據分析師了?
我用下面這張圖來回答:

最底層是技術基礎,是進行數(shù)據分析的工具。Python是目前最流行的工具之一,但不是唯一,甚至不是必須。但如果你掌握Python,并且熟悉Pandas、Numpy、Matplotlib這幾個數(shù)據分析常用庫,那這一層面你就沒問題了。它是一個必要條件,但不是充分條件。作為一個合格的數(shù)據分析師,你必須要有使用相關工具的能力;但如果你只是會寫Python,距離數(shù)據分析師還尚有距離。
工具之上,你需要有統(tǒng)計學的基本常識,了解常見的分析方法,并可以用工具對數(shù)據進行相應的分析工作,如果了解一些機器學習的模型就更好了。這些都可以通過相關的書籍、案例進行學習和練習。到了這一步,你差不多就入門數(shù)據分析了,但此時也還只是個“工具人”,只能實現(xiàn)別人給你定好的分析指標。
最上層的軟實力才是一個數(shù)據分析師的核心競爭力。你需要對業(yè)務有足夠的理解,可以選擇合適的指標、模型,找出并驗證數(shù)據的相關性,提出并推進有效的優(yōu)化方案。
這一步離不開長期的實踐、復盤、思考,作為一個新人來說或許還很難,但多做、多想,是需要從一開始就養(yǎng)成的習慣。假如交給你的任務是分析某個指標,那你是就只看這一個指標,做完拉倒,還是再多試試其他指標、其他模型,完全取決于你自己。
大家都是同一年畢業(yè),但十年后的薪資差異,就都在這一點一滴的細節(jié)中產生了分化。(好嘛,最后居然又扯回來了)
一點淺見,如果對你有幫助,歡迎轉發(fā)/點贊/收藏~你們的支持是我更新的動力。
參考:
[1] http://www.tjxzj.net/1236.html


延伸閱讀《數(shù)據分析即未來》
