數(shù)據(jù)行業(yè)非完全入門指南!
之前給從傳統(tǒng)制造業(yè)轉(zhuǎn)行的數(shù)據(jù)行業(yè)的朋友列的一個(gè)筆記,這里把原文貼出來。現(xiàn)在看來概括性不夠,不過適合對大數(shù)據(jù)沒有太多了解但想入行的人閱讀。(語言環(huán)境問題,筆記里中英文交錯(cuò),也沒太整理,望見諒)
Data相關(guān)行業(yè)介紹與入門要求。 Entry level 的相關(guān)職位。 Junior level員工職業(yè)發(fā)展路徑。
一、Data相關(guān)行業(yè)介紹與入門要求
Data算不上行業(yè),每個(gè)行業(yè)都會產(chǎn)生數(shù)據(jù),公司越大產(chǎn)生的數(shù)據(jù)越多,需要的人才也越多。
也有的公司自己不存數(shù)據(jù),只提供技術(shù)給其他大公司做數(shù)據(jù)建模的。
做Data的有幾種情況:
Data Scientist as analyst Data Scientist as model builder Data Scientist as engineering Data Scientist as full-stack
對Data職位來說,一般數(shù)學(xué)有一定要求,概率論和數(shù)據(jù)統(tǒng)計(jì)會經(jīng)常面試考到,常見的考題會發(fā)給你看看,但如果你沒有這個(gè)基礎(chǔ),還是要從頭學(xué)習(xí)一下的。
數(shù)學(xué)要求:概率論和數(shù)據(jù)統(tǒng)計(jì),線性代數(shù)等,面試常見考題包括:
均值與方差及其公式 什么是高斯分布 什么是正態(tài)分布 貝葉斯公式 三門問題
2.技能樹(從入門到必須):
python或者R。python資源較多,建議先學(xué)python 數(shù)據(jù)可視化。其實(shí)excel也可以做到,但還是 數(shù)據(jù)建模。會用到機(jī)器學(xué)習(xí)的知識
3. 學(xué)習(xí)資源:(coursera旁聽audit不花錢,其實(shí)花錢拿證書含金量也不高,企業(yè)不怎么認(rèn)可)

統(tǒng)計(jì)基礎(chǔ) https://www.coursera.org/learn/basic-statistics Python 入門 https://www.coursera.org/specializations/python DS 方向的python https://www.coursera.org/specializations/data-science-python Python 數(shù)據(jù)可視化 https://www.coursera.org/learn/python-for-data-visualization 機(jī)器學(xué)習(xí) https://www.coursera.org/learn/machine-learning
如果是偏深度學(xué)習(xí)方向,例如計(jì)算機(jī)視覺,自然語言處理,會考到線性代數(shù),要知道怎么進(jìn)行矩陣運(yùn)算。但為了先入門,這里就不介紹太多,怕消化不來。
引申:幾種常用的機(jī)器學(xué)習(xí)
監(jiān)督式學(xué)習(xí)(supervised learning)需要標(biāo)記數(shù)據(jù) 非監(jiān)督式學(xué)習(xí)(unsupervised learning)不需要標(biāo)記數(shù)據(jù)。代表算法:k-means 強(qiáng)化學(xué)習(xí)(為了不壓垮你的大腦,先跳過介紹)
業(yè)界常見模型:
CNN: 主要用于識別圖像 LSTM:處理時(shí)間序列 ,自然語言處理等
二、Entry level 相關(guān)職位
兩個(gè)方向:
Data Engineer 編程語言:Scala, Java。軟件框架包括hadoop, spark, hive, postgreSQL 等等。
Data Scientist 編程語言: Python(最常用), R(少數(shù)公司用)。軟件有的公司會自建Data Science Studio.也有很多服務(wù)提供商提供了DSS,例如DataRobot, Dataiku等。但建議不要依賴語言。Jupyter notebook是比較適合調(diào)試python 的工具,某些課程上會講到。
兩個(gè)方向都需要的:SQL語句(https://link.zhihu.com/?target=https%3A//www.coursera.org/learn/analytics-mysql)
如何入行與關(guān)注職位要求變化
學(xué)習(xí)上述的基本課程。 上linkedin看職位需求(注:國內(nèi)linkedin用得少,可以看其他招聘網(wǎng)站)
三、Junior level員工職業(yè)發(fā)展路徑
Data Scientist 路線:senior → lead, 足夠經(jīng)驗(yàn)后可以做獨(dú)立consultant或者加入咨詢公司 Data Engineer,senior → lead → 架構(gòu)師 全棧方向,DS和DE都懂,現(xiàn)在有的公司招的是兩方面都懂的,但建議先在某個(gè)方向做好了再去做另一個(gè)方向。兩個(gè)方向都懂的consultant更吃香
原文:https://zhuanlan.zhihu.com/p/101111340
