數(shù)據(jù)科學(xué)家?我是個(gè)搞數(shù)據(jù)的碼農(nóng)
有的人對(duì)數(shù)據(jù)科學(xué)家一詞可能會(huì)望文生義,可能會(huì)說(shuō):「你這個(gè)碼農(nóng)咋還自稱(chēng)科學(xué)家了呢」。故寫(xiě)此文來(lái)給大家揭開(kāi)數(shù)據(jù)科學(xué)家這個(gè)職位的神秘面紗,也讓準(zhǔn)備入行的新人對(duì)這個(gè)職業(yè)有更清楚的認(rèn)識(shí)。
夫妻肺片不是肺片
有的人可能會(huì)疑問(wèn),要把數(shù)據(jù)玩成怎樣才能算數(shù)據(jù)科學(xué)家呢?其實(shí)數(shù)據(jù)科學(xué)家這詞有點(diǎn)唬人,其實(shí)并不屬于傳統(tǒng)意義上的科學(xué)家。如果不好理解,那么這里打個(gè)比方:數(shù)據(jù)科學(xué)家一詞之于科學(xué)家,就好像夫妻肺片一詞之于肺片。所以當(dāng)朋友問(wèn)我做什么工作,如果對(duì)方不是專(zhuān)業(yè)人士,我一般不太敢用「數(shù)據(jù)科學(xué)家」這詞,因?yàn)楹苋菀妆徽`解。我一般都會(huì)對(duì)他說(shuō),我是個(gè)搞數(shù)據(jù)的碼農(nóng)。
數(shù)據(jù)科學(xué)家這個(gè)職位名稱(chēng),一般都是外企在使用。其實(shí)在國(guó)內(nèi),很少公司用這個(gè)職位名稱(chēng),更多的公司會(huì)用「算法工程師」或者「數(shù)據(jù)挖掘工程師」 。這兩個(gè)職位有啥不同?其實(shí)很難一句話說(shuō)清,因?yàn)椴煌緦?duì)這個(gè)職位的定位不同,下面會(huì)分別介紹。
一般來(lái)說(shuō),算法工程師包括幾種:
1.數(shù)據(jù)算法。例如給你數(shù)據(jù),用數(shù)據(jù)模型和各種集合模型來(lái)實(shí)現(xiàn)預(yù)測(cè)效果最大化。
2.系統(tǒng)級(jí)別算法。例如一個(gè)超100G數(shù)據(jù)訂單系統(tǒng),如果設(shè)計(jì)一個(gè)查詢(xún)算法,使得平均查詢(xún)時(shí)間最少。
3.專(zhuān)業(yè)算法。例如去研究SLAM算法并去改進(jìn),其實(shí)和數(shù)據(jù)科學(xué)關(guān)系很小。
數(shù)據(jù)科學(xué)家就泛了:
1.做數(shù)據(jù)建模的。利用各種深度學(xué)習(xí)機(jī)器學(xué)習(xí)的模型,去實(shí)現(xiàn)預(yù)測(cè)或者檢測(cè)。
2.做大數(shù)據(jù)處理的。其實(shí)就是data engineer,但有的公司就要起data scientist的名字來(lái)蹭熱度。
3.分析處理報(bào)表的。這個(gè)就更離譜了,把以前的analyst直接改名叫DS了,希望大家找工作時(shí)看清JD不要被忽悠進(jìn)去。
兩者的區(qū)別上,第一種算法工程師和第一種數(shù)據(jù)科學(xué)家工作本質(zhì)確實(shí)差不多,實(shí)質(zhì)差異就看每個(gè)公司對(duì)其定位。如果真要硬說(shuō)一個(gè)不同點(diǎn),根據(jù)我的經(jīng)驗(yàn),那就是數(shù)據(jù)科學(xué)家對(duì)溝通的需求稍微大些,需要對(duì)客戶(hù)解釋清楚自己的模型,對(duì)外部負(fù)責(zé)。而算法工程師可能更偏「添磚加瓦」,對(duì)內(nèi)部負(fù)責(zé)。其余后面的兩種,就差異大了。
如果你看中了「科學(xué)家」的title就去應(yīng)聘,那么你可能會(huì)對(duì)實(shí)際工作內(nèi)容感到失望。就好像幾年前校招里最火的「產(chǎn)品經(jīng)理」一崗,并不代表你一畢業(yè)就當(dāng)上了經(jīng)理。
數(shù)據(jù)科學(xué)家,來(lái)者何人?
那么數(shù)據(jù)科學(xué)家這一個(gè)詞是怎么來(lái)的呢?
業(yè)界普遍認(rèn)為,這個(gè)詞是由DJ Patil在領(lǐng)英時(shí)發(fā)明的[1]。2008年 Jeff Hamerbatcher 與 DJ Patil 分別在 Facebook、LinkedIn 領(lǐng)導(dǎo)全球第一支數(shù)據(jù)科學(xué)團(tuán)隊(duì),至此數(shù)據(jù)科學(xué)越來(lái)越被廣泛流行,并應(yīng)用到公共衛(wèi)生、市場(chǎng)、金融、社會(huì)等各個(gè)領(lǐng)域。由于Facebook, LinkedIn都在舊金山(San Francisco),所以有的人會(huì)調(diào)侃:
A data scientist a statistician who lives inSan Francisco
(數(shù)據(jù)科學(xué)家就是住在舊金山的統(tǒng)計(jì)員)
在一些公司,工程師對(duì)于大數(shù)據(jù)的處理和利用會(huì)這樣分工:
有的工程師主要做數(shù)據(jù)倉(cāng)庫(kù)建設(shè),數(shù)據(jù)ETL(Extract, Transform, Load)等工作,他們主要關(guān)注的是基礎(chǔ)架構(gòu)能不能支持大數(shù)據(jù)的存取,怎么存取等等基礎(chǔ)性問(wèn)題,這種工作,叫數(shù)據(jù)工程(Data Engineering)。
而有的工程師,是關(guān)注數(shù)據(jù)怎么用,用什么算法來(lái)挖掘數(shù)據(jù),用什么統(tǒng)計(jì)方法等等這種工作,為了區(qū)分?jǐn)?shù)據(jù)工程(Engineering) 的工作,這種工作就被叫做數(shù)據(jù)科學(xué)(Data Science)。
相對(duì)于的,前者一般叫Data Engineer(數(shù)據(jù)工程師),而后者,搞science的人,那就叫Scientist吧!于是后者成了Data Scientist。英文已經(jīng)很唬人了,翻譯成中文「數(shù)據(jù)科學(xué)家」后,就離原來(lái)的意思更遠(yuǎn)了。所以,我覺(jué)得國(guó)內(nèi)稱(chēng)之為「算法工程師」更貼切。
當(dāng)然,數(shù)據(jù)科學(xué)里面確實(shí)有些科學(xué)的部分,例如用統(tǒng)計(jì)方法來(lái)解決問(wèn)題。但總體來(lái)說(shuō),數(shù)據(jù)科學(xué)家的工作,是屬于工程領(lǐng)域,而非科學(xué)研究領(lǐng)域。
科學(xué)家?打雜工!
雖然說(shuō)是「科學(xué)家」,但做的事情其實(shí)是工程師所做的事。相對(duì)起傳統(tǒng)的軟件工程師,數(shù)據(jù)科學(xué)家做的事情可能專(zhuān)注度更低,但上下游整合的水平更高。

數(shù)據(jù)科學(xué)家的日常工作可以有多雜?
我在之前的回答(https://www.zhihu.com/question/22696468/answer/746755379)提到過(guò),這里簡(jiǎn)要概括下:
1. 商業(yè)邏輯理解與思考(占10%時(shí)間)。
2. 數(shù)據(jù)檢查與清洗(占25%時(shí)間)。這是個(gè)很耗時(shí)又很枯燥的活。誰(shuí)說(shuō)data scientist is the sexiest job in 21st century的?檢查檢查數(shù)據(jù)的過(guò)程一點(diǎn)都不sexy。
3. 特征工程(占20%的時(shí)間)。寫(xiě)代碼,構(gòu)建特征
4. 數(shù)據(jù)建模(占5%時(shí)間)。這是花時(shí)間最少的階段。
5. 與客戶(hù),同事,或者上級(jí)溝通(占20%時(shí)間),溝通的內(nèi)容包括:數(shù)據(jù)檢查發(fā)現(xiàn)的問(wèn)題,項(xiàng)目的進(jìn)度匯報(bào),模型的更新,文檔的更新,給客戶(hù)演示新方案等等。
6. 寫(xiě)模型文檔,數(shù)據(jù)分析文檔等。(占15%時(shí)間)
這么看來(lái),數(shù)據(jù)科學(xué)家既像碼農(nóng),也像數(shù)據(jù)分析師,更像ppt制作專(zhuān)家。當(dāng)然,數(shù)據(jù)科學(xué)家最像的,還是洗碗工,別人清洗盤(pán)子,我們清洗數(shù)據(jù)。
上面說(shuō)的,僅僅只能代表我的日常工作,不敢說(shuō)所有數(shù)據(jù)科學(xué)家的工作內(nèi)容都和我一樣。因?yàn)閿?shù)據(jù)科學(xué)家這個(gè)職位,并沒(méi)有完全被定義清楚,不同公司的數(shù)據(jù)科學(xué)家可能做的事情不一樣,具體有啥不一樣?大家可以去linkedIn上搜搜Data Scientist的招聘信息,看看工作內(nèi)容和技能要求,相信這里面的多樣性會(huì)嚇你一跳。
你也想來(lái)打雜?
恭喜你看到這里,說(shuō)明你并沒(méi)有被數(shù)據(jù)科學(xué)的繁雜給嚇退,這是成為優(yōu)秀數(shù)據(jù)科學(xué)家的第一步。那么數(shù)據(jù)科學(xué)家的技能包括哪些?我之前寫(xiě)過(guò)一篇回答(https://www.zhihu.com/question/21592677/answer/1866931706)。不過(guò)有個(gè)外國(guó)的大神做了一張圖,讓我看完覺(jué)得,我還是太嫩了。

嘿嘿,被唬住了?放心,這并不是數(shù)據(jù)科學(xué)家的入門(mén)門(mén)檻。這個(gè)圖僅僅是一個(gè)超集合(superset),也就是說(shuō),你并不一定需要全部懂這些才能去當(dāng)個(gè)數(shù)據(jù)科學(xué)家。
如果你是從軟件工程師轉(zhuǎn)成數(shù)據(jù)科學(xué)家的,你的優(yōu)勢(shì)會(huì)多些,因?yàn)檫@依然是工程類(lèi)的職位,對(duì)基本的編程能力還是很看重。在《 數(shù)據(jù)科學(xué)家訪談錄》[3]一書(shū)中,Khan Academy數(shù)據(jù)科學(xué)主管Jace Kohlmeier說(shuō):
“依我之見(jiàn),如果想要成為一名出色的數(shù)據(jù)科學(xué)家,你必須也是一名出色(至少是非常高效)的程序員。”
但即使你掌握了以上知識(shí),你也不能立刻成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家。在數(shù)據(jù)科學(xué)里,最重要的是根據(jù)業(yè)務(wù)不同摸索出不同的實(shí)踐,這需要具體的商業(yè)背景或者學(xué)科背景。MailChimp首席科學(xué)家Jonh Foreman說(shuō):
“如果你將數(shù)據(jù)科學(xué)作為一個(gè)學(xué)科,深入其中進(jìn)行調(diào)查得越多,你就越會(huì)發(fā)現(xiàn),這個(gè)看似籠統(tǒng)的大傘下面,掩蓋了非常多的技術(shù)、數(shù)據(jù)集以及學(xué)科背景。”[3]
當(dāng)然,作為數(shù)據(jù)科學(xué)家,我們的職責(zé)是推進(jìn)技術(shù)落地,讓技術(shù)產(chǎn)生價(jià)值。那么落地能力包括哪些呢?大家可以看看,這里就不再贅述了。
恭喜你看到這里,你已經(jīng)具備了一名優(yōu)秀數(shù)據(jù)科學(xué)家必須的品質(zhì)——耐心。
所以,你真的想好要來(lái)大數(shù)據(jù)里摸爬滾打,在統(tǒng)計(jì)學(xué)的世界里打雜了嗎?
▲ 點(diǎn)擊閱讀「數(shù)據(jù)行業(yè)非完全入門(mén)指南」參考
[ 1 ] https://observer.com/2019/11/data-scientist-inventor-dj-patil-interview-linkedin-job-market-trend
[ 2 ] http://nirvacana.com/thoughts/wp-content/uploads/2018/01/RoadToDataScientist1.png
[ 3 ] 數(shù)據(jù)科學(xué)家訪談錄. 978-7-115-47091-1. 作者: 【美】Carl Shan(單研) William Chen(陳子蔚) Henry Wang(汪強(qiáng)明) Max Song(宋邁思). 譯者: 田原劉奕.
桔了個(gè)仔
Data Scientist,擅長(zhǎng)領(lǐng)域:風(fēng)控/反洗錢(qián)
熱衷于人工智能/機(jī)器學(xué)習(xí)/編程/科技/技術(shù)的鏟屎官

