來源 | 「Build a Career in Data Science」
作者 | Emily Robinson and Jacqueline Nolis
譯者 | ztongjoyce
校對(duì) | gongyouliu
編輯 | auroral-L
全文共12350字,預(yù)計(jì)閱讀時(shí)間50分鐘。
1.1什么是數(shù)據(jù)科學(xué)?
1.1.1數(shù)學(xué)/統(tǒng)計(jì)學(xué)
1.1.2數(shù)據(jù)庫(kù)/編程
1.1.3業(yè)務(wù)理解
1.2不同類型的數(shù)據(jù)科學(xué)工作
1.2.1分析
1.2.2機(jī)器學(xué)習(xí)
1.2.3決策科學(xué)
1.2.4相關(guān)工作
1.3選擇你的道路
1.4訪問Airbnb的數(shù)據(jù)科學(xué)家Robert Chang
?本章總結(jié)
本章涵蓋了:
l 數(shù)據(jù)科學(xué)的三個(gè)主要方面
l 不同類型的數(shù)據(jù)科學(xué)工作
“21世紀(jì)最性感的工作?!薄懊绹?guó)最好的工作。”有很多類似的內(nèi)容來評(píng)價(jià)數(shù)據(jù)科學(xué)??墒窃?/span>2008年之前,“數(shù)據(jù)科學(xué)家”這個(gè)頭銜甚至都不存在。如今的這個(gè)崗位不僅雇主招不到人、并且求職者們還為之瘋狂競(jìng)爭(zhēng)。這種熱潮的存在是合理的:因?yàn)閿?shù)據(jù)科學(xué)是一個(gè)飛速發(fā)展的領(lǐng)域,在2019年美國(guó)基本工資排名中,它的薪資數(shù)超過10萬美元(http://mng.bz/XpMp)。在一家優(yōu)秀的公司里,數(shù)據(jù)科學(xué)家享有很大的自主權(quán),他們需要不斷學(xué)習(xí)新東西,并且利用自己的技能來解決重大問題。比如,與醫(yī)生合作分析藥物試驗(yàn),幫助運(yùn)動(dòng)隊(duì)挑選新運(yùn)動(dòng)員,或重新設(shè)計(jì)小部件業(yè)務(wù)的定價(jià)模式。正如我們?cè)诘谌轮袑⒁懻摰哪菢樱撼蔀橐幻麛?shù)據(jù)科學(xué)家并沒有單一的方法。因?yàn)榭茖W(xué)家們都來自不同的背景,所以你不會(huì)因?yàn)槟阍诒究齐A段選擇了什么專業(yè)而受到限制。但并非所有的數(shù)據(jù)科學(xué)工作都如此完美。公司和求職者,站在不同的角度,都會(huì)對(duì)這個(gè)職業(yè)有一些不切實(shí)際的期望。例如,剛接觸數(shù)據(jù)科學(xué)的公司可能認(rèn)為,他們的數(shù)據(jù)科學(xué)家能夠用數(shù)據(jù)解決所有問題。當(dāng)一名數(shù)據(jù)科學(xué)家最終被錄用時(shí),他可能會(huì)面臨一大堆沒完沒了的要求。他的任務(wù)可能是,在沒有準(zhǔn)備充分或整理完數(shù)據(jù)時(shí),立即實(shí)施機(jī)器學(xué)習(xí)。也可能是,沒有人來指導(dǎo)他們,甚至沒有人同情和理解他們所面臨的問題。我們將在章節(jié)5和7中更深入地討論這些問題,我們將幫助你避免加入一個(gè)并不適合新數(shù)據(jù)科學(xué)家的糟糕的公司。在第9章,我們將會(huì)為處于困境中的你提出一些建議。從求職者的角度來看,他們也許會(huì)認(rèn)為這個(gè)新職業(yè)永遠(yuǎn)都是高光時(shí)刻,或者期望投資者們例行地遵循數(shù)據(jù)科學(xué)家的建議?;蛘?,作為數(shù)據(jù)工程師,他們可以立即修復(fù)任何數(shù)據(jù)的質(zhì)量問題,并且能夠最快的獲得可用計(jì)算資源來實(shí)現(xiàn)模型。但是,事實(shí)上,數(shù)據(jù)科學(xué)家會(huì)花費(fèi)大量時(shí)間來清理和準(zhǔn)備數(shù)據(jù),以及處理一些團(tuán)隊(duì)管理的問題,比如工作預(yù)期和優(yōu)先級(jí)的問題。項(xiàng)目不會(huì)永遠(yuǎn)是成功的。管理人員可能會(huì)對(duì)客戶做出一些不切實(shí)際的承諾:承諾他們所建立的數(shù)據(jù)科學(xué)模型能提供這樣那樣的功能。有的公司可能會(huì)使用比較陳舊的數(shù)據(jù)系統(tǒng),而這種系統(tǒng)往往不可能實(shí)現(xiàn)自動(dòng)化,并且每周需要花費(fèi)數(shù)小時(shí)的精力來清理數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會(huì)注意到遺留分析中的許多統(tǒng)計(jì)或技術(shù)錯(cuò)誤,這些錯(cuò)誤會(huì)產(chǎn)生一些非常實(shí)際的后果,但,沒有人對(duì)此感興趣,而且通常數(shù)據(jù)科學(xué)家的工作太過繁重,以至于沒有時(shí)間修復(fù)它們。數(shù)據(jù)科學(xué)家在項(xiàng)目中可能還需要準(zhǔn)備報(bào)告,用于支持高級(jí)管理層制定的決策。因此,如果數(shù)據(jù)科學(xué)家給出不同的答案,那么他們也許會(huì)有被解雇的風(fēng)險(xiǎn)。這本書會(huì)帶你過一遍成為數(shù)據(jù)科學(xué)家的過程,以及一些幫助你職業(yè)生涯發(fā)展的問題。我們想要確保你——讀者,得到成為一個(gè)數(shù)據(jù)科學(xué)家所具備的重要的知識(shí),并且避免大多數(shù)陷阱。也許你的工作領(lǐng)域與之相近,比如市場(chǎng)分析,你想知道如何轉(zhuǎn)換工作。或者你已經(jīng)是一名數(shù)據(jù)科學(xué)家了,但是你正在尋找一份新工作,并且認(rèn)為你在第一次找工作時(shí)做得并不好?;蛘吣阆胪ㄟ^在會(huì)議上發(fā)言、為開源做貢獻(xiàn)或成為一名獨(dú)立顧問來促進(jìn)你的職業(yè)發(fā)展。無論你的水平如何,我們都相信這本書會(huì)對(duì)你有所幫助。本書的前四章,會(huì)涵蓋數(shù)據(jù)科學(xué)技能和一些建立投資組合的主要機(jī)會(huì)的內(nèi)容,以求繞過需要經(jīng)驗(yàn)才能獲得經(jīng)驗(yàn)的悖論。第二部分展示了如何寫求職信和簡(jiǎn)歷來獲得面試機(jī)會(huì),以及如何建立你的人際網(wǎng)絡(luò)來獲得推薦。我們還將討論一些談判策略,研究表明這些策略方法會(huì)使您得到最好的工資待遇。當(dāng)你從事數(shù)據(jù)科學(xué)方面的工作時(shí),你需要撰寫分析報(bào)告,與利益相關(guān)者合作,甚至可能需要將模型投入生產(chǎn)。我們第三部分的內(nèi)容會(huì)幫助你理解所有這些過程是什么樣子的,以及如何為自己的成功做好準(zhǔn)備。在第四部分中,當(dāng)項(xiàng)目不可避免地失敗時(shí),你會(huì)學(xué)到該如何讓自己振作起來。當(dāng)你準(zhǔn)備好了,我們會(huì)在這里指導(dǎo)你做出職業(yè)發(fā)展的決定:晉升到管理層,繼續(xù)做個(gè)人貢獻(xiàn)者,甚至成為一名獨(dú)立顧問。但是,在你開始這個(gè)旅程之前,你需要清楚什么是數(shù)據(jù)科學(xué)家,他們的工作是什么。數(shù)據(jù)科學(xué)是一個(gè)廣泛的領(lǐng)域,涵蓋了許多類型的工作,你越了解這些領(lǐng)域之間的差異,你就越能在其中成長(zhǎng)。
1.1什么是數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)是使用數(shù)據(jù)進(jìn)行分析理解問題,和解決現(xiàn)實(shí)問題的一種實(shí)踐。這個(gè)概念并不新奇;自從zero發(fā)明以來,人們就一直在分析銷售數(shù)據(jù)和銷售趨勢(shì)。然而,在過去的十年間,我們獲得了比以往更多的數(shù)據(jù),因?yàn)橛?jì)算機(jī)的出現(xiàn)幫助產(chǎn)生了許許多多的數(shù)據(jù),并且計(jì)算機(jī)也是我們處理海量信息的唯一途徑。通過計(jì)算機(jī)代碼,數(shù)據(jù)科學(xué)家們可以轉(zhuǎn)換或聚合數(shù)據(jù)、運(yùn)行統(tǒng)計(jì)分析、或訓(xùn)練機(jī)器學(xué)習(xí)模型。代碼的輸出可能是供人類使用的報(bào)告或儀表,也可能是一個(gè)個(gè)被部署好的以持續(xù)運(yùn)行的機(jī)器學(xué)習(xí)模型。例如,如果一家零售公司在新店選址時(shí)遇到困難,它可能會(huì)請(qǐng)數(shù)據(jù)科學(xué)家進(jìn)行分析。數(shù)據(jù)科學(xué)家可以查看在線訂單運(yùn)送地點(diǎn)的歷史數(shù)據(jù),以了解客戶的位置需求。他們還可以將客戶位置數(shù)據(jù)與人口普查記錄中這些地區(qū)的演示圖形以及收入信息結(jié)合。有了這些數(shù)據(jù)集,他們可以找到開設(shè)新店的最佳地點(diǎn),并制作一個(gè)PowerPoint演示文稿,向公司零售運(yùn)營(yíng)副總裁展示他們的建議。在另一種情況下,一家零售公司可能希望通過在顧客購(gòu)物時(shí)向他們推薦商品來增加在線訂單。數(shù)據(jù)科學(xué)家們可以加載歷史web訂單數(shù)據(jù),并創(chuàng)建一個(gè)機(jī)器學(xué)習(xí)模型,給定購(gòu)物車中當(dāng)前的一組商品,預(yù)測(cè)向購(gòu)物者推薦的最佳商品。創(chuàng)建該模型后,數(shù)據(jù)科學(xué)家將與公司的軟件工程團(tuán)隊(duì)合作,這樣每當(dāng)客戶購(gòu)物時(shí),新的機(jī)器學(xué)習(xí)模型就會(huì)提供推薦商品。當(dāng)許多人開始研究數(shù)據(jù)科學(xué)時(shí),他們面臨的一個(gè)挑戰(zhàn)是,他們會(huì)被大量需要學(xué)習(xí)的東西所淹沒,比如編碼(但要學(xué)習(xí)哪種語言?)、統(tǒng)計(jì)學(xué)(但哪些方法在實(shí)踐中最重要,哪些主要是用于學(xué)術(shù)討論的?)、機(jī)器學(xué)習(xí)(但機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)或人工智能有何不同?)以及他們想要從事的任何行業(yè)內(nèi)的領(lǐng)域知識(shí)(但如果你不知道自己想要在哪個(gè)行業(yè)工作呢?)除了這些之外,他們還需要學(xué)習(xí)一些商業(yè)技巧,比如如何將結(jié)果有效地傳達(dá)給其他聽眾們(從數(shù)據(jù)科學(xué)家到首席執(zhí)行官們)。這些焦慮可能會(huì)因?yàn)椤安┦繉W(xué)位”、“數(shù)據(jù)科學(xué)經(jīng)驗(yàn)”和“統(tǒng)計(jì)編程專業(yè)知識(shí)”而加劇。你該如何學(xué)會(huì)這些技能?你應(yīng)該從哪幾個(gè)開始呢?最基礎(chǔ)的是什么?如果研究過數(shù)據(jù)科學(xué)的不同領(lǐng)域,那么你可能熟悉康威(Drew Conway)的流行數(shù)據(jù)科學(xué)維恩圖。在他看來(在創(chuàng)建圖表時(shí)),數(shù)據(jù)科學(xué)是很多領(lǐng)域的交叉學(xué)科:數(shù)學(xué)和統(tǒng)計(jì)知識(shí)、某領(lǐng)域的專業(yè)知識(shí)以及黑客技能(編碼)。這個(gè)圖像經(jīng)常被用來定義什么是數(shù)據(jù)科學(xué)家的基礎(chǔ)。從我們的角度來看,數(shù)據(jù)科學(xué)的組成部分與他提出的略有不同(圖1.1)。
圖1.1. 組合成數(shù)據(jù)科學(xué)的各項(xiàng)技能以及它們?nèi)绾谓M合成不同的角色我們把康威(Drew Conway)原來的維恩圖改成了三角形,這并不代表你有沒有技能;而是你擁有它的程度與該領(lǐng)域其他人不同。雖然這三種技能都是基礎(chǔ)技能,并且你需要獲得相應(yīng)的學(xué)位,但你不需要在所有方面都成為專家。我們把不同類型的數(shù)據(jù)科學(xué)專業(yè)放在三角形內(nèi)。這些專長(zhǎng)通常并不與職位一一對(duì)應(yīng),即使有,不同的公司有時(shí)也會(huì)用不同的名稱來稱呼它們。1.1.1數(shù)學(xué)/統(tǒng)計(jì)學(xué) 在基礎(chǔ)層面上,數(shù)學(xué)和統(tǒng)計(jì)知識(shí)是數(shù)據(jù)認(rèn)知。我們把數(shù)據(jù)認(rèn)知分為三個(gè)層次:l 技術(shù)存在性——如果你不知道某件事是可行的,你就不能使用它。如果數(shù)據(jù)科學(xué)家試圖對(duì)類似的客戶進(jìn)行分組,那么了解統(tǒng)計(jì)方法(稱為聚類)可以達(dá)成目標(biāo)將是第一步。l 如何應(yīng)用這些技術(shù)——盡管數(shù)據(jù)科學(xué)家可能知道很多技術(shù),但他們也需要能夠理解應(yīng)用這些技術(shù)的復(fù)雜性——不僅要知道如何編寫代碼來應(yīng)用這些方法,還要知道如何配置這些方法。如果數(shù)據(jù)科學(xué)家想要使用k-means聚類這樣的方法來對(duì)客戶進(jìn)行分組,他們就需要了解如何在R或Python這樣的編程語言中進(jìn)行k-means聚類。他們還需要了解如何調(diào)整方法的參數(shù),例如,通過選擇要?jiǎng)?chuàng)建多少組。l 如何選擇技術(shù)——由于數(shù)據(jù)科學(xué)中可以使用的技術(shù)非常之多,因此數(shù)據(jù)科學(xué)家能夠快速評(píng)估一種技術(shù)是否能夠很好地工作是很重要的。在我們的客戶分組測(cè)試中,即使數(shù)據(jù)科學(xué)家關(guān)注聚類,他們也必須考慮幾十種不同的方法和算法。他們不需要嘗試每一種方法,而是需要能夠快速排除幾種方法,并專注于其中的幾種。這些技能在數(shù)據(jù)科學(xué)中經(jīng)常被使用。我們來考慮一個(gè)例子,假設(shè)你在一家電子商務(wù)公司工作。你的業(yè)務(wù)合作伙伴可能對(duì)平均訂單價(jià)值最高的國(guó)家感興趣。此時(shí)如果你有可用的數(shù)據(jù),那么這個(gè)問題就很容易回答。但是,與其簡(jiǎn)單地展示這些信息,讓你的客戶自己得出結(jié)論,你還不如深入挖掘這些數(shù)據(jù)。如果你有一個(gè)來自國(guó)家A的100美元訂單,和一千個(gè)來自國(guó)家B的75美元訂單。毫無疑問國(guó)家A的平均訂單價(jià)值更高。但這是否意味著你的業(yè)務(wù)伙伴必須在A國(guó)投資廣告,以增加訂單數(shù)量?答案可能是否定的。A國(guó)只有一個(gè)數(shù)據(jù)點(diǎn),它可能是某個(gè)離群值。如果國(guó)家A有500個(gè)訂單,那么你可以使用一個(gè)統(tǒng)計(jì)測(cè)試來查看訂單的價(jià)值是否有顯著變化,這意味著如果在這個(gè)度量上A和B之間沒有差異,你就不可能會(huì)看到之前的誤差。在這個(gè)很長(zhǎng)的例子中,我們對(duì)哪些方法是明智的、哪些應(yīng)該被考慮,以及哪些結(jié)果被認(rèn)為是不重要的做出了許多不同的評(píng)估。1.1.2 數(shù)據(jù)庫(kù)/編程編程和數(shù)據(jù)庫(kù)是指從公司數(shù)據(jù)庫(kù)中提取數(shù)據(jù)并編寫清晰、高效、可維護(hù)的代碼的能力。這些技能在許多方面與軟件開發(fā)人員必備的技能相似,只是數(shù)據(jù)科學(xué)家必須編寫用于進(jìn)行開放式分析的代碼,而不是生成預(yù)定義的輸出。每個(gè)公司的數(shù)據(jù)堆棧都是獨(dú)一無二的,所以數(shù)據(jù)科學(xué)家不需要一套技術(shù)類技能。但總的來說,你需要知道如何從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù),以及如何清理、操作、匯總、可視化和共享數(shù)據(jù)。在大多數(shù)數(shù)據(jù)科學(xué)工作中,主要語言是R或Python。R是一種植根于統(tǒng)計(jì)的編程語言,因此它通常在統(tǒng)計(jì)分析、建模、可視化和生成帶有結(jié)果的報(bào)告方面表現(xiàn)得最為強(qiáng)大。Python是一種編程語言,最初是一種通用的軟件開發(fā)語言,現(xiàn)在在數(shù)據(jù)科學(xué)中非常流行。Python在處理大型數(shù)據(jù)集、進(jìn)行機(jī)器學(xué)習(xí)和支持實(shí)時(shí)算法(如亞馬遜的推薦引擎)方面比R更好。但是由于許多貢獻(xiàn)者的努力,這兩種語言的能力現(xiàn)在幾乎相等。數(shù)據(jù)科學(xué)家正成功地使用R來制作每周運(yùn)行數(shù)百萬次的機(jī)器學(xué)習(xí)模型,他們也在用Python進(jìn)行干凈、像樣的統(tǒng)計(jì)分析。R和Python是數(shù)據(jù)科學(xué)領(lǐng)域最流行的語言,原因如下:l 它們是免費(fèi)的開源的,這意味著很多人,不僅僅是一家公司或者一個(gè)團(tuán)體,貢獻(xiàn)了你可以使用的代碼。它們有許多用于數(shù)據(jù)收集、操作、可視化、統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的包或庫(kù)(代碼集)。l 重要的是,由于每種語言都有大量的追隨者,數(shù)據(jù)科學(xué)家在遇到問題時(shí)很容易處理。盡管一些公司仍然使用SAS、SPSS、STATA、MATLAB或其他付費(fèi)程序,但也有許多公司開始轉(zhuǎn)而使用R或Python。盡管大多數(shù)數(shù)據(jù)科學(xué)分析是在R或Python中完成的,但您通常需要使用數(shù)據(jù)庫(kù)來獲取數(shù)據(jù)。這就是我們使用SQL語言的原因。SQL是大多數(shù)數(shù)據(jù)庫(kù)用來操作數(shù)據(jù)或提取數(shù)據(jù)的編程語言。假設(shè)一個(gè)數(shù)據(jù)科學(xué)家想要分析公司中的數(shù)億個(gè)客戶的訂單記錄,以預(yù)測(cè)每天的訂單將如何隨時(shí)間變化。首先,他們可能會(huì)編寫一個(gè)SQL查詢來獲取每天的訂單數(shù)量。然后,他們將接受這些每日訂單計(jì)數(shù),并在R或Python中運(yùn)行一個(gè)統(tǒng)計(jì)預(yù)測(cè)。由于這個(gè)原因,SQL在數(shù)據(jù)科學(xué)界非常流行,如果不了解它,你就很難走得太遠(yuǎn)。另一個(gè)核心技能是使用版本控制——一種跟蹤代碼如何隨時(shí)間變化的方法。版本控制允許你存儲(chǔ)你的文件;將它們恢復(fù)到以前的某一時(shí)間;看看是誰,怎么改的,什么時(shí)候改的。這一技能對(duì)于數(shù)據(jù)科學(xué)和軟件工程非常重要,因?yàn)槿绻腥艘馔飧牧艘粋€(gè)破壞文件的代碼,那么這時(shí)你會(huì)希望能夠恢復(fù)或查看被更改的內(nèi)容。到目前為止,Git是最常用的版本控制系統(tǒng),通常與GitHub(基于web的Git托管服務(wù))一起使用。Git允許保存(提交)更改,還可以查看項(xiàng)目的整個(gè)歷史以及每次提交時(shí)如何更改。如果兩個(gè)人分別處理同一個(gè)文件,Git會(huì)確保沒有人的工作被意外刪除或覆蓋。在許多公司,特別是那些擁有強(qiáng)大工程團(tuán)隊(duì)的公司,如果想要共享代碼或?qū)⒛承〇|西投入生產(chǎn),就需要使用Git。不編程你能成為數(shù)據(jù)科學(xué)家嗎?
僅使用Excel、Tableau或其他具有圖形界面的商業(yè)情報(bào)工具就可以完成大量的數(shù)據(jù)工作。雖然您不是在編寫代碼,但這些工具聲稱具有與R或Python等語言相同的許多功能,而且許多數(shù)據(jù)科學(xué)家有時(shí)確實(shí)使用它們。但它們能成為一個(gè)完整的數(shù)據(jù)科學(xué)工具包嗎?我們說“不”。實(shí)際上,很少有公司擁有不需要編程的數(shù)據(jù)科學(xué)團(tuán)隊(duì)。但即使不是這樣,編程也比使用這些工具有優(yōu)勢(shì)。
編程的第一個(gè)優(yōu)點(diǎn)是可再現(xiàn)性。當(dāng)您編寫代碼而不是使用指向-點(diǎn)擊軟件時(shí),您可以在數(shù)據(jù)發(fā)生變化時(shí)重新運(yùn)行它,無論是每天還是每六個(gè)月。這個(gè)優(yōu)點(diǎn)也與版本控制有關(guān):不必每次代碼更改時(shí)都重命名文件,你可以保留一個(gè)文件,但可以查看它的整個(gè)歷史。
第二個(gè)優(yōu)點(diǎn)是靈活性。例如,如果Tableau沒有可用的圖形類型,你將無法創(chuàng)建它。但是通過編程,你可以編寫自己的代碼來實(shí)現(xiàn)工具的創(chuàng)建者和維護(hù)者從未想過的東西。
開源語言(如Python和R)的第三個(gè)也是最后一個(gè)優(yōu)勢(shì)是社區(qū)的貢獻(xiàn)。成千上萬的人創(chuàng)建包,并在GitHub和/或CRAN(用于R)和pip(用于Python)上公開發(fā)布我們可以下載這些代碼,并使用它解決自己的問題。我們不需要依賴一家公司或一群人來添加功能。
1.1.3業(yè)務(wù)理解
任何足夠先進(jìn)的技術(shù)都與魔法無異。委婉地說,企業(yè)對(duì)數(shù)據(jù)科學(xué)的運(yùn)作方式有不同的理解。通常情況下,管理層只是想要完成某個(gè)業(yè)務(wù),然后求助于數(shù)據(jù)科學(xué)領(lǐng)域的獨(dú)角獸來實(shí)現(xiàn)這一目標(biāo)。數(shù)據(jù)科學(xué)的核心技能是知道如何將業(yè)務(wù)情況轉(zhuǎn)化為數(shù)據(jù)問題,找到數(shù)據(jù)答案,并最終交付業(yè)務(wù)答案。例如,商務(wù)人士可能會(huì)問:“為什么我們的客戶要離開?”但是這里沒有“為什么客戶要離開”的Python包可以供我們導(dǎo)入——這取決于你如何用數(shù)據(jù)來回答這些問題。業(yè)務(wù)理解是數(shù)據(jù)科學(xué)理論與現(xiàn)實(shí)世界的實(shí)用性相結(jié)合的地方。僅僅想要一個(gè)特定的信息而不知道數(shù)據(jù)是如何在特定的公司存儲(chǔ)和更新的是不夠的。如果你的公司是一個(gè)訂閱服務(wù),數(shù)據(jù)在哪里?如果有人更改了訂閱,會(huì)發(fā)生什么?是否更新了訂閱服務(wù)器中的某一行,或者向表中添加了另一行?您需要處理數(shù)據(jù)中的錯(cuò)誤或不一致嗎?如果你不知道這些問題的答案,你就無法準(zhǔn)確回答像“2019年3月2日我們有多少訂閱者?”這樣的基本問題。業(yè)務(wù)理解還可以幫助你知道你應(yīng)該問哪些問題。當(dāng)被問到“下一步我們應(yīng)該做什么?”這就有點(diǎn)像在問“為什么我們沒有更多的錢?”諸如此類的問題會(huì)引出更多的問題。對(duì)核心業(yè)務(wù)(以及涉及到的人)的理解可以幫助你更好地分析形勢(shì)。你可以接著問“關(guān)于哪個(gè)產(chǎn)品線你正在尋求指導(dǎo)?”或者“您是否希望看到更多特定人群的參與?”數(shù)據(jù)科學(xué)會(huì)消失嗎?
關(guān)于數(shù)據(jù)科學(xué)是否會(huì)在10年或20年后消失,背后有兩個(gè)主要擔(dān)憂:這項(xiàng)工作將會(huì)自動(dòng)化,數(shù)據(jù)科學(xué)被過度炒作,所以就業(yè)市場(chǎng)泡沫將會(huì)破裂。
的確,數(shù)據(jù)科學(xué)的某些部分可以自動(dòng)化。自動(dòng)機(jī)器學(xué)習(xí)(AutoML)可以比較不同模型的性能,并執(zhí)行某些部分的數(shù)據(jù)準(zhǔn)備(如縮放變量)。但這些任務(wù)只是數(shù)據(jù)科學(xué)過程的一小部分。例如,您經(jīng)常需要自己創(chuàng)建數(shù)據(jù);很少有完全干凈的數(shù)據(jù)等著你。此外,創(chuàng)建數(shù)據(jù)通常需要與其他人交談,例如用戶體驗(yàn)研究人員或工程師,他們將進(jìn)行調(diào)查或記錄用戶行為,從而推動(dòng)您的分析。
關(guān)于就業(yè)市場(chǎng)泡沫破裂的可能性,一個(gè)很好的比喻是20世紀(jì)80年代的軟件工程。隨著計(jì)算機(jī)變得越來越便宜,越來越快,越來越普遍,人們擔(dān)心計(jì)算機(jī)很快就能做所有的事情,也就不需要程序員了。但是相反的事情發(fā)生了,現(xiàn)在在美國(guó)有超過120萬的軟件工程師。雖然像網(wǎng)站管理員這樣的頭銜已經(jīng)消失了,但是越來越多的人致力于網(wǎng)站的開發(fā)、維護(hù)和改進(jìn)。
我們相信,數(shù)據(jù)科學(xué)將會(huì)有更多的專業(yè)化,這可能會(huì)導(dǎo)致一般頭銜的數(shù)據(jù)科學(xué)家消失,但許多公司仍處于學(xué)習(xí)如何利用數(shù)據(jù)科學(xué)的早期階段,那里還有大量的工作要做。
1.2 不同類型的數(shù)據(jù)科學(xué)工作
你可以將數(shù)據(jù)科學(xué)的三個(gè)核心技能(在1.1節(jié)中介紹)混合并匹配到工作中,所有這些都可以成為數(shù)據(jù)科學(xué)家的技能。在我們看來,這些技能主要通過三種方式混合在一起:分析學(xué)、機(jī)器學(xué)習(xí)和決策科學(xué)。每個(gè)領(lǐng)域都為公司服務(wù)不同的目的,并從根本上提供不同的方案。
在尋找數(shù)據(jù)科學(xué)類的工作時(shí),你應(yīng)該少關(guān)注一些職位頭銜,多關(guān)注職位描述和面試中被提問的內(nèi)容??纯磸氖聰?shù)據(jù)科學(xué)工作的人的背景,比如他們之前做過什么工作,他們的學(xué)位是什么。你可能會(huì)發(fā)現(xiàn),從事類似工作的人有著完全不同的頭銜,或者擁有相同數(shù)據(jù)科學(xué)家頭銜的人做著完全不同的事情。當(dāng)我們?cè)诒緯姓務(wù)摬煌愋偷臄?shù)據(jù)科學(xué)工作時(shí),請(qǐng)記住,公司實(shí)際使用的頭銜很可能會(huì)有所不同。
1.2.1 分析
分析師把數(shù)據(jù)放到正確的人面前。在一家公司設(shè)定了年度目標(biāo)之后,你可以把這些目標(biāo)放在一個(gè)面板上,這樣管理層就可以每周跟蹤進(jìn)度。您還可以內(nèi)置一些特性,讓經(jīng)理們可以輕松地按國(guó)家或產(chǎn)品類型拆解這些數(shù)字。這項(xiàng)工作涉及大量的數(shù)據(jù)清理和準(zhǔn)備工作,但通常涉及很少的解釋數(shù)據(jù)工作。盡管你的工作是發(fā)現(xiàn)和修復(fù)數(shù)據(jù)質(zhì)量問題,但使用該數(shù)據(jù)做出決策的主要人員是你的業(yè)務(wù)合作伙伴。因此,分析師的工作是從公司內(nèi)部獲取數(shù)據(jù),有效地格式化和安排數(shù)據(jù),并將這些數(shù)據(jù)傳遞給其他人。
因?yàn)榉治鰩煹慕巧簧婕按罅康慕y(tǒng)計(jì)和機(jī)器學(xué)習(xí),一些人和公司會(huì)認(rèn)為這個(gè)角色不屬于數(shù)據(jù)科學(xué)領(lǐng)域。但是很多工作,例如設(shè)計(jì)有意義的可視化和決定特定的數(shù)據(jù)轉(zhuǎn)換,都需要在其他類型的數(shù)據(jù)科學(xué)角色中使用相似技能。分析師可能會(huì)被賦予這樣的任務(wù):“創(chuàng)建一個(gè)自動(dòng)化界面,顯示我們的訂閱者數(shù)量如何隨時(shí)間變化,并讓將訂閱者數(shù)據(jù)過濾到特定產(chǎn)品或特定地理區(qū)域?!薄胺治鰩煴仨氃诠緝?nèi)部找到適當(dāng)?shù)臄?shù)據(jù),找出如何適當(dāng)?shù)剞D(zhuǎn)換數(shù)據(jù)的方法(例如通過改變從每日到每周的新訂閱),然后創(chuàng)建一組有意義的、視覺上引人注目的界面,以及每日沒有誤差的自動(dòng)更新。
簡(jiǎn)而言之:分析師創(chuàng)建交付數(shù)據(jù)的面板和報(bào)告。
1.2.2機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)工程師開發(fā)機(jī)器學(xué)習(xí)模型,將其投入生產(chǎn),并在生產(chǎn)中不斷運(yùn)行。他們可能會(huì)優(yōu)化電子商務(wù)網(wǎng)站搜索結(jié)果的排名算法,創(chuàng)建推薦系統(tǒng),或監(jiān)控生產(chǎn)中的模型,以確保其性能自部署以來沒有下降。機(jī)器學(xué)習(xí)工程師會(huì)花很少的時(shí)間在創(chuàng)建視覺化這樣能讓人們信服的事情上,而花更多的時(shí)間在數(shù)據(jù)科學(xué)的編程工作上。
這個(gè)角色和其他類型的數(shù)據(jù)科學(xué)職位的一個(gè)很大的區(qū)別是,工作輸出主要是機(jī)器來消費(fèi)。例如,您可以創(chuàng)建機(jī)器學(xué)習(xí)模型,并將其轉(zhuǎn)換為用于其他機(jī)器的應(yīng)用程序編程接口(api)。在許多方面,與其他數(shù)據(jù)科學(xué)角色相比,這個(gè)角色更接近于軟件開發(fā)人員。盡管遵循最佳編碼實(shí)踐對(duì)任何數(shù)據(jù)科學(xué)家都有好處,但作為一個(gè)機(jī)器學(xué)習(xí)工程師,你必須這樣做。你的代碼必須是性能良好、經(jīng)過測(cè)試和編寫的,以便其他人能夠使用。因此,許多機(jī)器學(xué)習(xí)工程師都有計(jì)算機(jī)科學(xué)背景。
機(jī)器學(xué)習(xí)工程師可能會(huì)被要求創(chuàng)建一個(gè)機(jī)器學(xué)習(xí)模型,以便實(shí)時(shí)預(yù)測(cè)網(wǎng)站上的客戶實(shí)際完成訂單的概率。機(jī)器學(xué)習(xí)工程師必須找到公司的歷史數(shù)據(jù),訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,把這個(gè)模型變成一個(gè)API,然后部署API,以便網(wǎng)站可以運(yùn)行這個(gè)模型。如果該模型由于某種原因停止工作,機(jī)器學(xué)習(xí)工程師將被調(diào)用來修復(fù)它。
簡(jiǎn)而言之,機(jī)器學(xué)習(xí)工程師創(chuàng)建的模型可以持續(xù)運(yùn)行。
1.2.3決策科學(xué)
決策科學(xué)家將公司的原始數(shù)據(jù)轉(zhuǎn)化為信息,幫助公司做出決策。這項(xiàng)工作依賴于對(duì)不同的數(shù)學(xué)和統(tǒng)計(jì)方法的深刻理解和對(duì)商業(yè)決策的熟悉。此外,決策科學(xué)家必須能夠做出令人信服的可視化表格,以便與他們交談的非技術(shù)人員能夠理解他們的分析。盡管決策科學(xué)家要做大量的編程工作,但他們的工作通常只運(yùn)行一次,以進(jìn)行特定的分析,因此他們可以避免編寫效率低下或難以維護(hù)的代碼。
決策科學(xué)家必須了解公司內(nèi)其他人的需求,并弄清楚如何產(chǎn)生建設(shè)性的信息。例如,市場(chǎng)總監(jiān)可能會(huì)請(qǐng)決策專家?guī)椭麄儧Q定哪些類型的產(chǎn)品應(yīng)該在公司的節(jié)日禮物指南中突出。決策科學(xué)家可能會(huì)調(diào)查哪些產(chǎn)品賣得很好,卻沒有在禮物指南中得到推薦,與用戶研究團(tuán)隊(duì)討論如何進(jìn)行調(diào)查,并使用行為科學(xué)的原則進(jìn)行分析,提出最佳的商品建議。決策科學(xué)家輸出的結(jié)果很可能是一個(gè)與產(chǎn)品經(jīng)理、副總裁和其他商務(wù)人士共享的PowerPoint演示文稿或報(bào)告。
決策科學(xué)家經(jīng)常使用他們的統(tǒng)計(jì)知識(shí)來幫助公司在不確定的情況下做出決策。例如,決策科學(xué)家對(duì)他們公司的實(shí)驗(yàn)分析系統(tǒng)運(yùn)行負(fù)有責(zé)任。許多公司進(jìn)行在線實(shí)驗(yàn),或A/B測(cè)試,以衡量一項(xiàng)改變是否有效。這種改變可以簡(jiǎn)單到添加一個(gè)新按鈕,也可以復(fù)雜到改變搜索結(jié)果的排名系統(tǒng),或者完全重新設(shè)計(jì)一個(gè)頁面。在A/B測(cè)試中,訪問者被隨機(jī)分配到兩種或兩種以上的條件中的一種,比如一半訪問舊版本的主頁,這是對(duì)照,一半訪問新版本的主頁,這是處理。然后比較訪客進(jìn)入實(shí)驗(yàn)后的行為,看看那些在新版本中的人是否有更高的比率進(jìn)行令公司滿意的行為,比如購(gòu)買產(chǎn)品。
因?yàn)殡S機(jī)性,控制和處理中的參數(shù)很少完全相同。假設(shè)你拋了兩枚硬幣,100次中有52次是正面,100次中有49次是正面。你會(huì)得出結(jié)論說第一個(gè)硬幣正面向上的可能性更大嗎?當(dāng)然不是!但是一個(gè)商業(yè)伙伴可能會(huì)看一個(gè)實(shí)驗(yàn),看到對(duì)照組的轉(zhuǎn)化率是5.4%,治療組的轉(zhuǎn)化率是5.6%,然后宣布治療是成功的。決策科學(xué)家的職責(zé)是幫助解釋數(shù)據(jù),執(zhí)行設(shè)計(jì)實(shí)驗(yàn)的最佳實(shí)踐,等等。
簡(jiǎn)而言之:決策科學(xué)家進(jìn)行分析并提出建議。
1.2.4相關(guān)工作
雖然前面幾節(jié)討論的三個(gè)領(lǐng)域是數(shù)據(jù)科學(xué)職位的主要類型,但你可能會(huì)看到一些其他不同的角色,它們不在這些類別之內(nèi)。我們?cè)谶@里列出這些工作,因?yàn)榱私膺@些職位是很有好處的,因?yàn)槟憧赡苄枰瓦@些崗位上的同事合作。也就是說,如果你對(duì)以下其中一個(gè)角色感興趣,那么這本書所講的內(nèi)容可能與你不太相關(guān)。
商業(yè)智能分析
商業(yè)智能分析師的工作確實(shí)與分析師類似,但他們通常使用較少的統(tǒng)計(jì)和編程專業(yè)知識(shí)。他們選擇的工具可能是Excel而不是Python,而且他們可能永遠(yuǎn)不會(huì)制作統(tǒng)計(jì)模型。盡管他們的工作功能類似于分析師,但由于工具和技術(shù)的限制,他們創(chuàng)造的輸出不那么復(fù)雜。
如果你想做機(jī)器學(xué)習(xí)或編程,或應(yīng)用統(tǒng)計(jì)方法,商業(yè)智能分析師的職位可能是一個(gè)令你不太滿意的職位,因?yàn)樗粫?huì)幫助你獲得新的技能。此外,這些工作的薪酬通常比數(shù)據(jù)科學(xué)工作低,而且被認(rèn)為不那么有聲望。但是,商業(yè)智能分析師的工作可能是成為數(shù)據(jù)科學(xué)家的一個(gè)很好的切入點(diǎn),特別是如果你以前沒有在商業(yè)環(huán)境中處理過數(shù)據(jù)的話。如果你想從一名商業(yè)智能分析師開始,然后成長(zhǎng)為一名數(shù)據(jù)科學(xué)家,那么尋找一些你可以學(xué)習(xí)技能的職位,比如用R或Python編程。
數(shù)據(jù)工程師
數(shù)據(jù)工程師關(guān)注的是在數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù),并確保人們能夠獲得他們需要的數(shù)據(jù)。他們不運(yùn)行報(bào)告、分析或開發(fā)模型;相反,他們將數(shù)據(jù)整齊地存儲(chǔ)在結(jié)構(gòu)良好的數(shù)據(jù)庫(kù)中并格式化,這樣其他人就可以做很多事情。數(shù)據(jù)工程師的任務(wù)可能是維護(hù)大型云數(shù)據(jù)庫(kù)中的所有客戶記錄,并根據(jù)要求向該數(shù)據(jù)庫(kù)添加新表。
數(shù)據(jù)工程師與數(shù)據(jù)科學(xué)家截然不同,他們更稀少,也更受歡迎。數(shù)據(jù)工程師可以幫助建立公司內(nèi)部實(shí)驗(yàn)系統(tǒng)的數(shù)據(jù)后端組件,并在工作開始耗時(shí)太長(zhǎng)時(shí)更新數(shù)據(jù)處理流程。其他數(shù)據(jù)工程師開發(fā)和監(jiān)控批處理和流環(huán)境,管理從收集到處理再到數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)。
如果你對(duì)數(shù)據(jù)工程感興趣,你需要很強(qiáng)的計(jì)算機(jī)科學(xué)技能;許多數(shù)據(jù)工程師以前都是軟件工程師。
研究科學(xué)家
研究科學(xué)家開發(fā)和實(shí)現(xiàn)新的工具、算法和方法,通常被公司內(nèi)的其他數(shù)據(jù)科學(xué)家使用。這些類型的職位幾乎總是需要博士學(xué)位,通常是計(jì)算機(jī)科學(xué),統(tǒng)計(jì),定量社會(huì)科學(xué),或相關(guān)領(lǐng)域的學(xué)者。研究人員可能會(huì)花費(fèi)數(shù)周的時(shí)間來研究和嘗試提高在線實(shí)驗(yàn)?zāi)芰Φ姆椒ǎ屪詣?dòng)駕駛汽車圖像識(shí)別的準(zhǔn)確率提高1%,或者構(gòu)建一種新的深度學(xué)習(xí)算法。他們甚至?xí)〞r(shí)間寫研究論文,這些論文可能很少在公司內(nèi)部使用,但卻有助于提高公司的聲望,(理想情況下)推動(dòng)該領(lǐng)域的發(fā)展。因?yàn)檫@些職位需要非常具體的背景,所以我們?cè)诒緯胁恢赜懻撍鼈儭?/span>
1.3選擇你的道路
在第三章中,我們介紹了獲取數(shù)據(jù)科學(xué)技能的一些選項(xiàng),每種選項(xiàng)的優(yōu)缺點(diǎn),以及選擇其中的一些建議。從這里開始,你最好開始思考你想要專門研究的數(shù)據(jù)科學(xué)領(lǐng)域。你在具有哪些方面的經(jīng)驗(yàn)?我見過的數(shù)據(jù)科學(xué)家,他們?cè)?jīng)是工程師、心理學(xué)教授、市場(chǎng)經(jīng)理、統(tǒng)計(jì)學(xué)學(xué)生和社會(huì)工作者。很多時(shí)候,你在其他工作和學(xué)術(shù)領(lǐng)域獲得的知識(shí)可以幫助你成為一個(gè)更好的數(shù)據(jù)科學(xué)家。如果您已經(jīng)學(xué)過數(shù)據(jù)科學(xué),那么現(xiàn)在考慮一下您處于三角形的哪個(gè)部分將會(huì)對(duì)你很有幫助。你對(duì)你的現(xiàn)狀滿意嗎?你想換一份不同類型的數(shù)據(jù)科學(xué)工作嗎?轉(zhuǎn)行通常是可行的。
Vicki Boykis: 人人都能成為數(shù)據(jù)科學(xué)家嗎?
隨著人們對(duì)數(shù)據(jù)科學(xué)的樂觀(以及新聞報(bào)道中列出的高薪),我們很容易理解:為什么它能提供誘人的職業(yè)機(jī)會(huì)。尤其是隨著數(shù)據(jù)科學(xué)職位的范圍不斷擴(kuò)大。但作為數(shù)據(jù)科學(xué)領(lǐng)域的新進(jìn)入者,你有必要對(duì)未來幾年數(shù)據(jù)科學(xué)市場(chǎng)的走向有一個(gè)現(xiàn)實(shí)而細(xì)致的看法,并做出相應(yīng)的調(diào)整。
今天有幾個(gè)趨勢(shì)影響著數(shù)據(jù)科學(xué)領(lǐng)域。首先,數(shù)據(jù)科學(xué)作為一個(gè)領(lǐng)域已經(jīng)存在了10年,因此,已經(jīng)經(jīng)歷了炒作周期的早期階段:大眾媒體炒作、早期采用和整合。它已經(jīng)被大肆宣傳,被媒體談?wù)?,被硅谷公司和其他公司采用,我們現(xiàn)在正處于大公司采用數(shù)據(jù)科學(xué)工作流工具的高速增長(zhǎng)階段,如Spark和AutoML。
其次,其結(jié)果是,新的數(shù)據(jù)科學(xué)家供不應(yīng)求,他們都來自訓(xùn)練營(yíng)、大學(xué)里新建的數(shù)據(jù)科學(xué)項(xiàng)目或在線課程。任何給定的數(shù)據(jù)科學(xué)職位,尤其是入門級(jí)職位,候選人的數(shù)量已經(jīng)從每個(gè)職位的20人左右增加到100人以上。每個(gè)空缺職位看到500份簡(jiǎn)歷已經(jīng)不是什么新鮮事了。
第三,標(biāo)準(zhǔn)化的工具集和現(xiàn)成的勞動(dòng)力,以及對(duì)經(jīng)驗(yàn)豐富的人的需求, 意味著數(shù)據(jù)科學(xué)職稱分配方式的轉(zhuǎn)變,以及數(shù)據(jù)科學(xué)工作和描述的層次結(jié)構(gòu)的不同。例如,在某些公司中,“數(shù)據(jù)科學(xué)家”可能意味著創(chuàng)建模型,但在某些公司中,它主要意味著運(yùn)行SQL分析,這相當(dāng)于過去的數(shù)據(jù)分析師頭銜。
對(duì)于那些希望進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域的新手來說,這意味著什么。首先,也是最重要的是,他們可能會(huì)發(fā)現(xiàn)就業(yè)市場(chǎng)競(jìng)爭(zhēng)異常激烈,特別是對(duì)于那些剛進(jìn)入這個(gè)行業(yè)的人(比如大學(xué)畢業(yè)生),或者那些剛從其他行業(yè)轉(zhuǎn)行過來的人,他們要與成千上萬的像他們一樣的求職者競(jìng)爭(zhēng)。其次,他們可能申請(qǐng)的工作并不像博客文章和流行媒體所描述的那樣真正反映數(shù)據(jù)科學(xué)——僅僅是編寫和執(zhí)行算法。
考慮到這些趨勢(shì),重要的是要明白,從一開始很難從一堆簡(jiǎn)歷中脫穎而出,從而進(jìn)入最后一輪面試。雖然你在這本書中讀到的策略可能看起來需要很多準(zhǔn)備工作,但它們將幫助你脫穎而出,這是在這個(gè)新的、競(jìng)爭(zhēng)激烈的數(shù)據(jù)科學(xué)環(huán)境中你所需要的。
1.4 訪問Airbnb的數(shù)據(jù)科學(xué)家Robert Chang
羅伯特·張(Robert Chang)是Airbnb的一名數(shù)據(jù)科學(xué)家,他在Airbnb Plus產(chǎn)品部工作。他之前曾在Twitter增長(zhǎng)團(tuán)隊(duì)工作,做產(chǎn)品分析,創(chuàng)建數(shù)據(jù)管道,運(yùn)行實(shí)驗(yàn)和創(chuàng)建模型。你可以在https://medium.com/@rchang上找到他關(guān)于數(shù)據(jù)工程的博客文章、他對(duì)有抱負(fù)的新數(shù)據(jù)科學(xué)家的建議、以及他在Airbnb和Twitter的工作。你的第一次數(shù)據(jù)科學(xué)之旅是什么?我的第一份工作是在華盛頓郵報(bào)做數(shù)據(jù)科學(xué)家?;氐?012年,我準(zhǔn)備離開學(xué)術(shù)界進(jìn)入工業(yè)界,但我不知道自己想做什么?!都~約時(shí)報(bào)》的工作給我留下了深刻的印象,我希望成為一名數(shù)據(jù)可視化科學(xué)家。當(dāng)我參加學(xué)校的招聘會(huì)時(shí),看到《華盛頓郵報(bào)》(The Washington Post)在招聘,我當(dāng)時(shí)很天真,我以為他們一定在做和《紐約時(shí)報(bào)》類似的事情。我申請(qǐng)并得到了這份工作,而且我沒有做任何盡職調(diào)查。如果你想讓我舉個(gè)例子告訴你如何不開始你的數(shù)據(jù)科學(xué)職業(yè)生涯,我絕對(duì)會(huì)自告奮勇!我得到這份工作是希望做數(shù)據(jù)可視化或建模,但我很快意識(shí)到我的工作不僅僅是數(shù)據(jù)工程師。我的大部分工作是構(gòu)建ETL(提取轉(zhuǎn)換加載)管道,重新運(yùn)行SQL腳本,并試圖確保報(bào)表運(yùn)行,以便我們可以向主管報(bào)告頂級(jí)指標(biāo)。這在當(dāng)時(shí)是非常痛苦的;我意識(shí)到我想做的與公司真正需要的不一致,最終我離開了工作。但后來在Twitter和Airbnb工作的幾年里,我意識(shí)到我看到的是常態(tài),而不是某次例外。當(dāng)你構(gòu)建數(shù)據(jù)功能時(shí),你必須一層一層地構(gòu)建它。Monica Rogati寫了一篇關(guān)于數(shù)據(jù)科學(xué)需求層次的著名博客文章,非常準(zhǔn)確(http://mng.bz/ad0o)。但當(dāng)時(shí),我還太年輕,無法理解真實(shí)、實(shí)時(shí)的數(shù)據(jù)科學(xué)工作是如何完成的。人們應(yīng)該在數(shù)據(jù)科學(xué)工作中尋找什么?如果你正在尋找數(shù)據(jù)科學(xué)方面的職位,你應(yīng)該關(guān)注公司的數(shù)據(jù)基礎(chǔ)設(shè)施狀況。如果你加入的公司只有一堆沒有存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的原始數(shù)據(jù),你可能需要幾個(gè)月甚至幾年的時(shí)間才能完成有趣的分析、實(shí)驗(yàn)或機(jī)器學(xué)習(xí)。如果這不是你想做的事情,你就會(huì)在公司的發(fā)展階段和你想為公司做的貢獻(xiàn)之間產(chǎn)生根本的偏差。要評(píng)估這一點(diǎn),您可以問這樣的問題:“您有數(shù)據(jù)基礎(chǔ)設(shè)施團(tuán)隊(duì)嗎?”他們出現(xiàn)多久了?什么是數(shù)據(jù)堆棧?你有數(shù)據(jù)工程團(tuán)隊(duì)嗎?他們?nèi)绾闻c數(shù)據(jù)科學(xué)家合作?當(dāng)你構(gòu)建一個(gè)新產(chǎn)品時(shí),你是否有一個(gè)測(cè)試日志、構(gòu)建數(shù)據(jù)表并將它們放入數(shù)據(jù)倉(cāng)庫(kù)的過程?“如果沒有這些東西,你將成為負(fù)責(zé)創(chuàng)造這些東西的團(tuán)隊(duì)的一員,并且你將在這上面投入大量時(shí)間?!?/span>第二要注意的是人。有三種人是你應(yīng)該注意的。假設(shè)你不想成為第一個(gè)數(shù)據(jù)科學(xué)家,你想加入一個(gè)有經(jīng)驗(yàn)的領(lǐng)導(dǎo)者的數(shù)據(jù)科學(xué)團(tuán)隊(duì)。一個(gè)有經(jīng)驗(yàn)的領(lǐng)導(dǎo)者知道如何建立和維護(hù)一個(gè)良好的基礎(chǔ)設(shè)施和工作流程,讓數(shù)據(jù)科學(xué)家更有效率。第二,尋找一位支持持續(xù)學(xué)習(xí)的經(jīng)理。最后,這一點(diǎn)非常重要,尤其是當(dāng)你剛開始工作的時(shí)候,你需要和一個(gè)非常實(shí)踐性的技術(shù)主管或高級(jí)數(shù)據(jù)科學(xué)家一起工作。在你的日常工作中,他是對(duì)你幫助最大的人。成為一名數(shù)據(jù)科學(xué)家需要具備哪些技能?我認(rèn)為這取決于你想找什么樣的工作以及雇主設(shè)定的標(biāo)準(zhǔn)。頂級(jí)公司通常有很高的門檻,有時(shí)高得不合理,因?yàn)橛泻芏嗳讼胍尤牍尽K麄兺ǔふ业氖仟?dú)角獸——擁有R或Python數(shù)據(jù)處理技能,以及構(gòu)建ETL管道、數(shù)據(jù)工程、實(shí)驗(yàn)設(shè)計(jì)、構(gòu)建模型并將其投入生產(chǎn)的經(jīng)驗(yàn)的人。這給了候選人很大的壓力!雖然這些都是你最終可以學(xué)習(xí)的技能,而且可能對(duì)你正在解決的任何問題都有用,但我不認(rèn)為它們是進(jìn)入數(shù)據(jù)科學(xué)的必要條件。如果你了解R或Python,并有一點(diǎn)SQL知識(shí),那么你已經(jīng)具備了進(jìn)入數(shù)據(jù)科學(xué)的良好條件。如果你能預(yù)先學(xué)習(xí)更多的東西來規(guī)劃你的職業(yè)生涯,那總是很有幫助的,但我不認(rèn)為那是必要的。更重要的是要熱愛學(xué)習(xí)。如果你想被頂級(jí)科技公司聘用,你需要更多一點(diǎn)知識(shí),但這更多是為了面試,而不是你在工作中真正需要的東西。如果你想進(jìn)入一個(gè)有競(jìng)爭(zhēng)力的名牌公司,你需要區(qū)分?jǐn)?shù)據(jù)科學(xué)職業(yè)生涯所需的核心技能和其他技能,這對(duì)你很有幫助。l 不同的人、不同的職位,所需的數(shù)據(jù)科學(xué)技能各不相同。雖然有些知識(shí)是基礎(chǔ)知識(shí),但數(shù)據(jù)科學(xué)家并不需要成為每一個(gè)相關(guān)領(lǐng)域的專家。l 數(shù)據(jù)科學(xué)領(lǐng)域的工作有不同的關(guān)注點(diǎn):把正確、清潔的數(shù)據(jù)擺在利益相關(guān)者面前(分析);將機(jī)器學(xué)習(xí)模型投入生產(chǎn)(機(jī)器學(xué)習(xí))以及利用數(shù)據(jù)進(jìn)行決策(決策科學(xué))。

相關(guān)閱讀: