<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          分析1400家公司后發(fā)現(xiàn):數(shù)據(jù)工程師比數(shù)據(jù)科學(xué)家更受歡迎

          共 6724字,需瀏覽 14分鐘

           ·

          2021-02-22 13:14

          大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自AI科技評論

          作者 | Mihail Eric

          編譯?|?Don


          近些年來,我都在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)人力市場的風(fēng)口浪尖進(jìn)行研究,我嘗試用我的研究回答一些問題,就是市場上到底需要什么樣的數(shù)據(jù)科學(xué)相關(guān)人才。
          通過分析Y-Combinator 發(fā)布的2012年來各家公司數(shù)據(jù)相關(guān)工作崗位的招聘信息(大約1400家公司),我發(fā)現(xiàn)在各大公司的招聘需求中,數(shù)據(jù)工程師的需求量要遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)科學(xué)家的需求量。
          數(shù)據(jù)是人工智能之本。數(shù)據(jù)源于生活,我們的舉手投足都能映射成一段段奇妙的樣本,它會隨著人們生活的繼續(xù)和傳感器的采集而不斷增加。海量的數(shù)據(jù)讓機(jī)器越來越理解人類,認(rèn)識萬物。在過去的5到10年間,數(shù)據(jù)的巨量增加讓這種現(xiàn)象愈發(fā)明顯,也正因?yàn)榇耍瑪?shù)據(jù)科學(xué)領(lǐng)域吸引了大量的科學(xué)家和小白投身其中,嘗試這種由海量數(shù)據(jù)帶來的"禁果"。
          那就不禁讓我們好奇了,如今隨著大量科研和開發(fā)人員涌入數(shù)據(jù)科學(xué)應(yīng)聘市場,數(shù)據(jù)科學(xué)相關(guān)崗位的招聘需求行情如何呢?
          為了不耽誤各位童鞋寶貴的時(shí)間,我們簡練滴總結(jié)了最終的結(jié)論:
          一句話總結(jié):在各大公司的招聘中,數(shù)據(jù)工程領(lǐng)域的崗位需求比數(shù)據(jù)科學(xué)高出了70%!因此,各位童鞋和老師請注意,我們在教育或者成為下一代的數(shù)據(jù)科學(xué)相關(guān)從業(yè)者的漫漫長征路上,不要一味的追求學(xué)術(shù)成就,更要注重培養(yǎng)工程技能。
          作為一名數(shù)據(jù)科學(xué)教育平臺的開發(fā)者,我十分關(guān)注學(xué)員們的就業(yè)情況。同樣的,我也深刻思考了數(shù)據(jù)驅(qū)動相關(guān)領(lǐng)域(也就是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí))的人力需求是如何演化的。
          我曾經(jīng)和數(shù)十位數(shù)據(jù)分析領(lǐng)域的從業(yè)者進(jìn)行了深入交流,其中不乏世界頂尖院校的高材生。在交流的過程中我逐漸產(chǎn)生了一個(gè)巨大的疑惑,就是到底什么技能才能給我們的從業(yè)者"鍍金"?哪些技能會讓我們的學(xué)員在愈來愈多的相關(guān)從業(yè)者中脫穎而出,從而為自己步入職場做好重要的準(zhǔn)備。
          那到底需要哪些職業(yè)數(shù)據(jù)科學(xué)相關(guān)的技能呢?我覺得只要和以下關(guān)鍵詞沾邊即可:機(jī)器學(xué)習(xí)建模,可視化,數(shù)據(jù)清洗和處理(即SQL爭用),工程和生產(chǎn)部署。
          那作為一個(gè)初次接觸數(shù)據(jù)科學(xué)的小白同學(xué)來說,有什么入門的學(xué)習(xí)課程和學(xué)習(xí)路徑推薦嗎?
          數(shù)據(jù)勝于雄辯,講了半天的大道理可能都不如一篇樸實(shí)無華的數(shù)據(jù)分析更有說服力。所以我對Y-Combinator自2012年以來的每家公司招聘的數(shù)據(jù)科學(xué)相關(guān)招聘需求進(jìn)行了分析和統(tǒng)計(jì),力求回答如下的問題:
          • 大公司們聘用的數(shù)據(jù)科學(xué)相關(guān)從業(yè)者人員大多是去干什么的?
          • 我們經(jīng)常談?wù)摰膫鹘y(tǒng)數(shù)據(jù)科學(xué)家到底受不受市場歡迎呢?
          • 如今來說,那些開啟了數(shù)據(jù)科學(xué)革命的技能之間是否相關(guān)呢?
          如果你對這些問題感興趣的話,請往下讀吧。

          調(diào)研方法


          YC投資組合公司是一家以數(shù)據(jù)為本的公司,他們號稱是"將數(shù)據(jù)作為公司的價(jià)值主張",聽起來很靠譜,所以我選擇使用他們的統(tǒng)計(jì)數(shù)據(jù)作為數(shù)據(jù)支撐。

          YC公司除了價(jià)值觀和旗號打的響,他們還額外提供了一個(gè)用起來很方便的搜索目錄,里面都是他們收錄的公司數(shù)據(jù),查找起來十分方便。
          此外,YC還是一個(gè)特別具有前瞻性思維的孵化器,十多年來一直在為來自世界各地的公司提供跨領(lǐng)域的孵化資金,成功扶持了不少新興企業(yè)。我覺得他們能夠慧眼識珠,起碼不至于將一些外強(qiáng)中干的皮包公司收錄其中。他們起碼能提供一個(gè)具有代表性的樣本集合來支撐我們的分析。
          為了收集數(shù)據(jù),我搜集了自2012年來的每家公司的YC網(wǎng)頁網(wǎng)址,目前統(tǒng)計(jì)了大概1400多家公司的數(shù)據(jù)。
          有的同學(xué)可能會問,為啥是統(tǒng)計(jì)2012年來的數(shù)據(jù)呢?哈哈,因?yàn)?012年是AlexNet在ImageNet比賽中大放異彩的一年。自那之后無數(shù)的數(shù)據(jù)分析公司受到了AlexNet的啟發(fā)和感召,如雨后春筍一般瘋狂的成立。換句話說,2012年后,AlexNet催生了一些最早的數(shù)據(jù)科學(xué)大公司。
          在這些最開始的大公司中,我使用關(guān)鍵詞過濾來減少那些無關(guān)的樣本干擾。主要來說,我只考慮那些用如下關(guān)鍵詞描述的公司:包括AI, CV, NLP, 自然語言處理,計(jì)算機(jī)視覺,人工智能,機(jī)器,ML,數(shù)據(jù)。我也忽略了那些官網(wǎng)無法訪問的公司。
          那肯定就有同學(xué)會懷疑了,這會不會讓我們的樣本集中包含大量的假陽樣本?答案是肯定的。但是現(xiàn)在來說我更想去關(guān)注數(shù)據(jù)集的召回率,因?yàn)槲以诔醪酱_定樣本對象之后,會對每個(gè)網(wǎng)站的詳細(xì)數(shù)據(jù)進(jìn)行更細(xì)致的手動檢查。
          有了這些精煉的人才需求數(shù)據(jù)庫,我訪問了每一家公司的網(wǎng)站,找到他們官網(wǎng)上的人才招聘的網(wǎng)頁,關(guān)鍵詞通常是Carrer, Jobs, 或者甚至就是這個(gè)網(wǎng)頁鏈接的本身。然后我記錄下其中的崗位需求名稱,比如機(jī)器學(xué)習(xí),NLP之類的,以及對應(yīng)的數(shù)量。通過這樣的數(shù)據(jù)收集工作,我攢到了一個(gè)樣本量大約是70家不同公司的數(shù)據(jù)科學(xué)相關(guān)人才需求統(tǒng)計(jì)表。
          當(dāng)然了,有的公司的網(wǎng)站上信息不全。通常是因?yàn)楣緳C(jī)密或者出于隱私保護(hù)的原因所致。所以我就只好把這些公司給略過了。還有一些公司沒有公布他們的招聘需求,而是要求應(yīng)聘者自己發(fā)送郵件給他們的郵箱投遞簡歷。所以這些公司的崗位需求和數(shù)量我也無從知曉。
          實(shí)在沒辦法了,這兩種公司的數(shù)據(jù)我實(shí)在是得不到,或者太費(fèi)功夫了。所以他們并不在本文的分析對象之中。
          哦對了,本文中的大部分研究都是在2020年最后的幾周中完成的,而很多公司在最近飛速發(fā)展,招聘的需求和招聘頁面也會發(fā)生變化。因此我們的數(shù)據(jù)可能不是那么實(shí)時(shí)。但是即便如此,這也不會影響我們最終的結(jié)論。

          數(shù)據(jù)從業(yè)者都是干什么的?

          在深入研究結(jié)果之前,我們有必要花一些時(shí)間詳細(xì)說說數(shù)據(jù)科學(xué)從業(yè)者的職位通常是干什么的。以下是本文著重研究的四個(gè)典型的職位,我們將簡要的介紹他們的職責(zé):

          數(shù)據(jù)科學(xué)家,數(shù)據(jù)科學(xué)家通常需要使用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的各種技術(shù)來處理和分析數(shù)據(jù)。他們通常負(fù)責(zé)構(gòu)建模型,從而研究從某些數(shù)據(jù)集中能夠?qū)W到什么??茖W(xué)家嘛,通常做的都是比較前沿和原型的。因此這些工作通常都不是直接落地并應(yīng)用到實(shí)際產(chǎn)品的。也就是說不是生產(chǎn)級別,面向用戶使用的。

          數(shù)據(jù)工程師,數(shù)據(jù)工程師通常需要開發(fā)出一套魯棒性高,擴(kuò)展性強(qiáng)的數(shù)據(jù)處理工具或者平臺。他們必須熟悉SQL,NoSQL數(shù)據(jù)庫的使用和ETL管道的部署和維護(hù)。

          機(jī)器學(xué)習(xí)ML工程師,機(jī)器學(xué)習(xí)工程師通常需要負(fù)責(zé)訓(xùn)練模型和交付模型。他們需要熟悉一些高級的ML框架,比如Tensorflow, Pytorch, ScikitLearn之類的,并且能夠?yàn)槟P蜆?gòu)建伸縮性強(qiáng)的訓(xùn)練工具,方便好用的推理和部署管道。

          機(jī)器學(xué)習(xí)科學(xué)家,機(jī)器學(xué)習(xí)科學(xué)家通常需要從事尖端的學(xué)術(shù)研究。他們需要負(fù)責(zé)產(chǎn)出可在學(xué)術(shù)會議上發(fā)表的新想法。他們可能比數(shù)據(jù)科學(xué)家更學(xué)術(shù)范兒一點(diǎn)兒,通常只需要在交付給機(jī)器學(xué)習(xí)工程師之前對模型粗粗的進(jìn)行原型化驗(yàn)證即可。

          數(shù)據(jù)科學(xué)相關(guān)的職位都有哪些呢?

          當(dāng)我們將統(tǒng)計(jì)起來的各大公司的崗位招聘職位的頻率進(jìn)行統(tǒng)計(jì)并畫出來的時(shí)候,大致結(jié)果如下:
          從圖中,我們一眼就能發(fā)現(xiàn),和傳統(tǒng)的數(shù)據(jù)科學(xué)家相比,數(shù)據(jù)工程師的需求多了很多。在圖中,數(shù)據(jù)工程師的應(yīng)聘需求量比數(shù)據(jù)科學(xué)家多了大約55%,而機(jī)器學(xué)習(xí)工程師的數(shù)量與數(shù)據(jù)科學(xué)家的數(shù)量大概相同。
          讓我們更深的剖析這個(gè)結(jié)果,如果你仔細(xì)研究每個(gè)崗位的名稱,你會發(fā)現(xiàn)其中有些重疊。
          因此,如果我們"泛泛地"對職位進(jìn)行歸類,而不是那么精細(xì)地對崗位進(jìn)行劃分的話,能得到另一個(gè)更直觀的結(jié)論。也就是如果我們合并同類項(xiàng),將那些看似很相近的崗位作為一類的話,這種角度的分析可能給我們一個(gè)更為直觀和宏觀的數(shù)量對比及印象。
          這種合并同類項(xiàng)的規(guī)則是:
          • NLP工程師≈CV工程師≈機(jī)器學(xué)習(xí)工程師≈深度學(xué)習(xí)工程師(也許上述職位的領(lǐng)域稍有不同,但是這些崗位職員的工作內(nèi)容是大致相同的)
          • 機(jī)器學(xué)習(xí)科學(xué)家≈深度學(xué)習(xí)研究員≈機(jī)器學(xué)習(xí)實(shí)習(xí)(雖然是實(shí)習(xí)崗,但是我們會找那些實(shí)習(xí)要求中明確說明是研究相關(guān)實(shí)習(xí)的崗位)
          • 數(shù)據(jù)工程師≈?jǐn)?shù)據(jù)架構(gòu)師≈?jǐn)?shù)據(jù)主管≈?jǐn)?shù)據(jù)平臺工程師
          如果覺得上述的原始數(shù)據(jù)不夠直觀,喜歡看百分比的數(shù)據(jù)的話,請查閱下圖:
          我們其實(shí)可以進(jìn)一步把ML研究工程師歸類為ML科學(xué)家或者M(jìn)L工程師,但考慮到這是一個(gè)混合角色,我還是保持原樣。
          總體來說,合并同類項(xiàng)的操作使得差異更加明顯,也讓結(jié)果更加顯而易見。那就是:數(shù)據(jù)工程師的職位需求比數(shù)據(jù)科學(xué)家的職位需求多70%。此外,機(jī)器學(xué)習(xí)工程師的職位數(shù)量比數(shù)據(jù)科學(xué)家的職位數(shù)量多了大約40%。ML科學(xué)家的數(shù)量也只有數(shù)據(jù)科學(xué)家職位數(shù)量的30%。

          結(jié)論


          與其他數(shù)據(jù)驅(qū)動行業(yè)相比,大公司們對數(shù)據(jù)工程師的需求越來越多。從某種意義上來說,這代表了一種趨勢,也就是人們對于更泛在的ML領(lǐng)域的需求的增加,以及朝此方向的一種演變。

          5-8年前的時(shí)候,但機(jī)器學(xué)習(xí)剛剛變得熱門,各大公司覺得他們需要能夠?qū)?shù)據(jù)進(jìn)行分類的人。但是后來像Tensorflow和Pytorch這樣的高級框架變得十分強(qiáng)大和易用的時(shí)候,大公司便增加了該方面的人力投入,于是便增加了該方向的人才需求,這就讓深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的需求開始增多。
          這使得擁有數(shù)據(jù)建模能力的開發(fā)者逐漸成為香餑餑。
          現(xiàn)如今,各大公司都手握海量數(shù)據(jù),而如何利用好這些數(shù)據(jù),從中挖掘出更多更有用的信息則成為了公司未來發(fā)展的核心,也成為了招聘人才的主要驅(qū)動力。
          如何解釋數(shù)據(jù)、如何處理和清理數(shù)據(jù)、怎么把A項(xiàng)目的工程和經(jīng)驗(yàn)快速遷移到B項(xiàng)目中,這都是大公司關(guān)心的問題,即我們應(yīng)該怎么將這些瑣碎的工作盡快完成。
          所有的這些問題都需要工程師擁有良好的工程能力。
          這聽起來也許特別傻,特別沒勁,而且一點(diǎn)都不酷。但實(shí)際上大公司真正需要的就是這樣“老派”、“傳統(tǒng)”而樸實(shí)的軟件工程師。
          多年以來,我們一直被數(shù)據(jù)領(lǐng)域所謂的專業(yè)人士的想法所迷惑和牽引,它們憑借炫酷的PPT和媒體炒作為原始的數(shù)據(jù)注入了生機(jī)與活力。畢竟,你想想你最后一次看到TechCrunch關(guān)于ETL管道的文章是什么時(shí)候?是不是好像根本沒有看到過?
          我相信扎實(shí)的工程能力是必需的,這也是我們在數(shù)據(jù)科學(xué)工作培訓(xùn)或者教育項(xiàng)目中所缺失的。我們除了需要學(xué)習(xí)如何調(diào)用線性回歸擬合函數(shù)來訓(xùn)練模型之外,更要學(xué)習(xí)如何編寫單元測試代碼。
          那這是不是意味著你不應(yīng)該學(xué)習(xí)數(shù)據(jù)科學(xué)了呢?答案是否定滴。
          這其實(shí)意味著更加激烈的市場競爭。人才市場上有著大量新兵蛋子,它們一開始就接受了數(shù)據(jù)科學(xué)科班訓(xùn)練,而這個(gè)領(lǐng)域人才越來越多,能夠提供給這個(gè)領(lǐng)域的職位則將會越來越少。
          公司要的是務(wù)實(shí),人們總是需要能夠有效分析數(shù)據(jù)、并且從數(shù)據(jù)中提取有效信息的人。這些信息不必是炫酷爛漫的,但必須是有效而且好用的。
          如今世道變了,我們今會從Tensorflow官網(wǎng)上下載一個(gè)Iris數(shù)據(jù)集,然后利用已經(jīng)訓(xùn)練好的模型跑一遍數(shù)據(jù),這種技能模型可能已經(jīng)不足以完成如今的數(shù)據(jù)科學(xué)工作了。
          但是很明顯,隨著ML工程師的大量空缺,公司通常需要一個(gè)混合數(shù)據(jù)從業(yè)者,也就是一個(gè)能夠構(gòu)建和部署模型的家伙?;蛘吒啙嵉恼f,這個(gè)人既可以使用Tensorflow訓(xùn)練模型,也能徒手用底層代碼手?jǐn)]模型。
          這里的另一個(gè)發(fā)現(xiàn)是,其實(shí)市場上并沒有那么多的機(jī)器學(xué)習(xí)研究崗位需求。
          機(jī)器學(xué)習(xí)的研究往往有點(diǎn)摻水,或者說華而不實(shí)。因?yàn)閷W(xué)術(shù)研究嘛,比較先鋒,這是所有所謂尖端的東西產(chǎn)生的地方,它們是否真正適用于商用還是有待商榷的。比如什么AlphaGo和GPT-3之類的炫技操作。
          但是對于很多公司來說,尤其是那些早期公司,這么先鋒的技術(shù)可能不是真正需要的。對于他們,獲得一個(gè)90%成功但是可以擴(kuò)展到1000多個(gè)用戶的模型通常更有價(jià)值。
          但是這并不是說機(jī)器學(xué)習(xí)研究不重要,絕對不是。
          因?yàn)槟憧赡軙谝恍┐笮偷难芯克?、?shí)驗(yàn)室中發(fā)現(xiàn)特別特別多的數(shù)據(jù)科學(xué)家的崗位需求。這些實(shí)驗(yàn)室就是大公司或者研究所用來秀肌肉的,他們有能力長期投入大量的科研經(jīng)費(fèi),保證他們能夠在該領(lǐng)域的曝光度和話語權(quán)。其實(shí)還有個(gè)重要的原因,就是尖端技術(shù)能產(chǎn)生意想不到的收益,因?yàn)橐粋€(gè)看起來特別炫酷,別人短時(shí)間之內(nèi)還難以追上的技術(shù)能夠產(chǎn)生一系列A股公司。
          如果沒有其他問題的話,我覺得讓新來的童鞋們對數(shù)據(jù)領(lǐng)域有一個(gè)大致的了解,知道這個(gè)領(lǐng)域就業(yè)的需求和前景還是有必要的。我們必須承認(rèn),數(shù)據(jù)科學(xué)現(xiàn)在不同了。我希望這篇文章能對大家有所幫助。只有當(dāng)我們知道我們在哪里,我們才知道我們要去哪里。

          Reddit討論

          @ManBearHybrid:
          沒錯(cuò)沒錯(cuò)。我們公司剛剛招聘了一名研究生,在公司收到的簡歷情況上來看,數(shù)據(jù)科學(xué)家崗位的申請人數(shù)起碼是數(shù)據(jù)工程師的15倍!
          公司的面試官們,你們在招聘研究生畢業(yè)的數(shù)據(jù)工程師時(shí)主要看中他們的什么技能呀?
          看過這篇文章,我覺得對于一個(gè)畢業(yè)生來說,能做到文中這些技能的積累著實(shí)有點(diǎn)困難。因?yàn)槲覀兊慕逃际歉鴮?dǎo)師或者教學(xué)規(guī)劃走的,沒有那么多直接面向職位招聘的教育途徑和實(shí)踐機(jī)會。換句話說,我們都是導(dǎo)師項(xiàng)目的工程師,我們讀研讀博的目的并不是找工作。面試的時(shí)候,對于投簡歷的畢業(yè)生小白們,我希望它們能夠有一些編碼、計(jì)算機(jī)的工程背景。并且對數(shù)據(jù)工程感興趣。如果玩兒過AWS或者有類似技能的小盆友會有加分的,比如在線課堂等。哦對了,還有SQl技能也是有加分的哈。除了這些之外,其他需要關(guān)注的技能就要看投簡歷的童鞋所選擇的崗位需求了。?
          對于那些更需要有經(jīng)驗(yàn)的老鳥工程師崗位來說,我希望看到應(yīng)聘者能有一些大數(shù)據(jù)領(lǐng)域的經(jīng)驗(yàn),比如有一些典型大數(shù)據(jù)平臺或者框架的使用經(jīng)驗(yàn),比如Hadoop/Spark/Hive之類的,然后數(shù)據(jù)庫的經(jīng)驗(yàn)等也是很重要的。
          @sam_matt:
          唉,不知道作者你們是在哪個(gè)國家,但是在我們這兒(澳大利亞),這些公司面試官都需要有經(jīng)驗(yàn)的人,他們很少會讓剛畢業(yè)的青瓜蛋子擔(dān)任數(shù)據(jù)科學(xué)家。所以對于像我這樣想從數(shù)據(jù)分析師過渡到數(shù)據(jù)科學(xué)家的人來說,應(yīng)聘機(jī)會都沒有。我太難了。越不給機(jī)會我越?jīng)]有經(jīng)驗(yàn),死循環(huán)無解無解。
          在美國灣區(qū),很多公司都會讓碩士或者博士擔(dān)任初級數(shù)據(jù)科學(xué)家。當(dāng)然了,我還認(rèn)識一些本科生,他們在5年前直接升職成為數(shù)據(jù)科學(xué)家。但我認(rèn)為,在現(xiàn)在來說,那些沒有研究生學(xué)位和背景的本科生也能夠一躍成為數(shù)據(jù)科學(xué)家,這表明,各大公司正在調(diào)整它們所需的數(shù)據(jù)分析師的工作,也正在重塑以前被研究生所壟斷的數(shù)據(jù)分析師職位的品牌定位。
          @good_rice:
          我有點(diǎn)質(zhì)疑文中關(guān)于領(lǐng)域歸并的統(tǒng)計(jì)合理性。因?yàn)槲夜ぷ骱脱芯康姆较蚴怯?jì)算機(jī)視覺,在此方向校友領(lǐng)域(在本科畢業(yè)之后,我曾經(jīng)去做過全職的計(jì)算機(jī)視覺工程師,然后去卡內(nèi)基梅隆大學(xué)CMU讀的碩士學(xué)位),但是就我而言,我雖然學(xué)的是計(jì)算機(jī)視覺,但好像從來沒有搞過任何跟“數(shù)據(jù)科學(xué)”相關(guān)的研究、工程。
          數(shù)據(jù)科學(xué)和典型的機(jī)器學(xué)習(xí)崗位有什么區(qū)別呢?文中在提及“數(shù)據(jù)工程師”時(shí),是指開發(fā)算子?基礎(chǔ)操作函數(shù)?還是機(jī)器學(xué)習(xí)系統(tǒng)工程?另外,請教有經(jīng)驗(yàn)的大佬們,上述這些技能或者工作是如何更廣泛地應(yīng)用在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域中的呢?
          我曾經(jīng)面試了一些更基礎(chǔ)的數(shù)據(jù)學(xué)習(xí)崗位,然后我目前正在學(xué)習(xí)更多的分布式系統(tǒng)/計(jì)算機(jī)體系結(jié)構(gòu)方面的知識。從我的經(jīng)驗(yàn)和理解來看,計(jì)算機(jī)視覺或者機(jī)器學(xué)習(xí)的基礎(chǔ)工作崗位開發(fā)里,99%是和系統(tǒng)工程類似的,這些應(yīng)聘者的技能包在其他機(jī)器學(xué)習(xí)相關(guān)崗位中也能適配,并且直接使用。但是,一個(gè)高水平的計(jì)算機(jī)視覺科學(xué)家是非常具體的,因?yàn)镃V這個(gè)領(lǐng)域和傳統(tǒng)機(jī)器學(xué)習(xí)還是有些區(qū)別和壁壘的。我覺得CV和機(jī)器學(xué)習(xí)這兩個(gè)領(lǐng)域中間夾著的這個(gè)領(lǐng)域很奇怪,在這里我可以研究一些高層的應(yīng)用,比如異常檢測和姿態(tài)估計(jì)的問題,但是也可以下沉到研究C++相關(guān)的代碼中。但是對于這兩個(gè)角色來說,這些技能在初創(chuàng)公司之外是否有價(jià)值?大公司們需要這些多棧工程師嗎?
          @bbu3:
          我覺得文章說的太真實(shí)了,很多東西真的取決于公司屬性和你要應(yīng)聘的職位的需求。每個(gè)單一的定義都不能一概而論。
          一般來說,數(shù)據(jù)科學(xué)比機(jī)器學(xué)習(xí)的范圍更廣泛。你會發(fā)現(xiàn)數(shù)據(jù)科學(xué)家們有時(shí)候做的活兒跟機(jī)器學(xué)習(xí)工程師一樣。但是有時(shí)我們又會發(fā)現(xiàn),數(shù)據(jù)科學(xué)家也能去做知識表示或者統(tǒng)計(jì)學(xué)工作,這些工作有些只是為了給那些管理人員演示、提供可視化的展示。數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師這兩個(gè)崗位的定位同樣讓人困惑。因?yàn)槲以?jīng)見過有的數(shù)據(jù)工程師被“提拔”為數(shù)據(jù)科學(xué)家,但是這僅作為資歷老的一種形式化獎勵(lì),實(shí)際上他們還是做著跟以往相同的工作。
          依在下之見,這一切都是無中生有的,它就像早起的初創(chuàng)公司在招聘的福利標(biāo)語一樣可笑“一個(gè)你選擇的未命名的C套件標(biāo)題”。
          @bubushikinator:
          我在美國五大巨頭公司FAANG之一工作(FAANG=Facebook、Apple、Amazon、Netflix、Alphabet或者Google),在我們這,這幾個(gè)職位的報(bào)酬順序大致是:
          數(shù)據(jù)工程師<軟件工程師=數(shù)據(jù)科學(xué)家<機(jī)器學(xué)習(xí)工程師
          數(shù)據(jù)工程師的工作是讓數(shù)據(jù)集可用,軟件工程師做的是一些一般性的開發(fā)工作,數(shù)據(jù)科學(xué)家的職責(zé)是訓(xùn)練Python模型,而機(jī)器學(xué)習(xí)工程師負(fù)責(zé)從模型中獲取權(quán)重和偏差,并在Scala中進(jìn)行商業(yè)化部署,并和一些基礎(chǔ)的組件打交道(包括kafka和Spark等)。
          我曾經(jīng)是一名數(shù)據(jù)科學(xué)家,然后轉(zhuǎn)方向變成了一名軟件工程師,現(xiàn)在我準(zhǔn)備專職到機(jī)器學(xué)習(xí)工程師。當(dāng)然,我們也有薪水更高的應(yīng)用科學(xué)家崗位,但面試官甚至從來不看我的簡歷,因?yàn)槲覜]有博士學(xué)位。
          @RandomGaussian:
          我的理解雖然有點(diǎn)刻薄,但是一針見血。數(shù)據(jù)科學(xué)家更像是一個(gè)業(yè)務(wù)專員,他們知道如何分析數(shù)據(jù)、需要哪些數(shù)據(jù)、如何組合和提取信息等。而數(shù)據(jù)工程師是一個(gè)知道如何準(zhǔn)備、清理、收集和分發(fā)數(shù)據(jù)工具的人。但用于數(shù)據(jù)管道他們就像一個(gè)開發(fā)人員和開發(fā)工具的混合體。我覺得是這樣的,數(shù)據(jù)科學(xué)家更接近機(jī)器學(xué)習(xí)領(lǐng)域,而數(shù)據(jù)工程師更像是程序員。
          @grudev:
          這篇文章和我的想法不謀而合。雖然我不是業(yè)內(nèi)人士,但是我想補(bǔ)充點(diǎn)東西。數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師們在技能包上的重疊是意料之中的。他們的工作同質(zhì)化十分嚴(yán)重。
          @RandomGaussian:
          是的,總會有重疊,因?yàn)樽铋_始的時(shí)候人們對機(jī)器學(xué)習(xí)產(chǎn)生興趣,但隨后便發(fā)現(xiàn)真正的機(jī)器學(xué)習(xí)工作需要深厚的積累和一個(gè)博士學(xué)位,然后他們無可奈何地走上了一條更“輕量化”的數(shù)據(jù)科學(xué)道路,也就是做數(shù)據(jù)工程師。但隨后發(fā)現(xiàn)數(shù)據(jù)工程師這樣的“基礎(chǔ)工作”也開始有著較高較深的要求了。所以,很多數(shù)據(jù)工程師多多少少都會了解一些機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域的東西。

          作者:

          Mihail Eric,亞馬遜Alexa AI機(jī)器學(xué)習(xí)科學(xué)家,斯坦福大學(xué)計(jì)算機(jī)科學(xué)碩士,曾擔(dān)任斯坦福大學(xué)自然語言處理(NLP)研究助理。


          原文鏈接:

          https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/

          https://www.reddit.com/r/MachineLearning/comments/kx0j1v/d_we_need_more_data_engineers_not_data_scientists/


          點(diǎn)「在看」的人都變好看了哦!
          瀏覽 58
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码激情国产 | 成人做爰黄AA片免费看三区 | 色逼视频网站 | 丁香五月在线视频 | 国产精品男插女 |