<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)科學(xué)家?我是個(gè)搞數(shù)據(jù)的碼農(nóng)

          共 3742字,需瀏覽 8分鐘

           ·

          2022-07-31 02:51

          有的人對(duì)數(shù)據(jù)科學(xué)家一詞可能會(huì)望文生義,可能會(huì)說:「你這個(gè)碼農(nóng)咋還自稱科學(xué)家了呢」。故寫此文來給大家揭開數(shù)據(jù)科學(xué)家這個(gè)職位的神秘面紗,也讓準(zhǔn)備入行的新人對(duì)這個(gè)職業(yè)有更清楚的認(rèn)識(shí)。

          夫妻肺片不是肺片

          有的人可能會(huì)疑問,要把數(shù)據(jù)玩成怎樣才能算數(shù)據(jù)科學(xué)家呢?其實(shí)數(shù)據(jù)科學(xué)家這詞有點(diǎn)唬人,其實(shí)并不屬于傳統(tǒng)意義上的科學(xué)家。如果不好理解,那么這里打個(gè)比方:數(shù)據(jù)科學(xué)家一詞之于科學(xué)家,就好像夫妻肺片一詞之于肺片。所以當(dāng)朋友問我做什么工作,如果對(duì)方不是專業(yè)人士,我一般不太敢用「數(shù)據(jù)科學(xué)家」這詞,因?yàn)楹苋菀妆徽`解。我一般都會(huì)對(duì)他說,我是個(gè)搞數(shù)據(jù)的碼農(nóng)。

          數(shù)據(jù)科學(xué)家這個(gè)職位名稱,一般都是外企在使用。其實(shí)在國(guó)內(nèi),很少公司用這個(gè)職位名稱,更多的公司會(huì)用「算法工程師」或者「數(shù)據(jù)挖掘工程師」 。這兩個(gè)職位有啥不同?其實(shí)很難一句話說清,因?yàn)椴煌緦?duì)這個(gè)職位的定位不同,下面會(huì)分別介紹。

          一般來說,算法工程師包括幾種:

          1.數(shù)據(jù)算法。例如給你數(shù)據(jù),用數(shù)據(jù)模型和各種集合模型來實(shí)現(xiàn)預(yù)測(cè)效果最大化。

          2.系統(tǒng)級(jí)別算法。例如一個(gè)超100G數(shù)據(jù)訂單系統(tǒng),如果設(shè)計(jì)一個(gè)查詢算法,使得平均查詢時(shí)間最少。

          3.專業(yè)算法。例如去研究SLAM算法并去改進(jìn),其實(shí)和數(shù)據(jù)科學(xué)關(guān)系很小。

          數(shù)據(jù)科學(xué)家就泛了:

          1.做數(shù)據(jù)建模的。利用各種深度學(xué)習(xí)機(jī)器學(xué)習(xí)的模型,去實(shí)現(xiàn)預(yù)測(cè)或者檢測(cè)。

          2.做大數(shù)據(jù)處理的。其實(shí)就是data engineer,但有的公司就要起data scientist的名字來蹭熱度。

          3.分析處理報(bào)表的。這個(gè)就更離譜了,把以前的analyst直接改名叫DS了,希望大家找工作時(shí)看清JD不要被忽悠進(jìn)去。

          兩者的區(qū)別上,第一種算法工程師和第一種數(shù)據(jù)科學(xué)家工作本質(zhì)確實(shí)差不多,實(shí)質(zhì)差異就看每個(gè)公司對(duì)其定位。如果真要硬說一個(gè)不同點(diǎn),根據(jù)我的經(jīng)驗(yàn),那就是數(shù)據(jù)科學(xué)家對(duì)溝通的需求稍微大些,需要對(duì)客戶解釋清楚自己的模型,對(duì)外部負(fù)責(zé)。而算法工程師可能更偏「添磚加瓦」,對(duì)內(nèi)部負(fù)責(zé)。其余后面的兩種,就差異大了。

          如果你看中了「科學(xué)家」的title就去應(yīng)聘,那么你可能會(huì)對(duì)實(shí)際工作內(nèi)容感到失望。就好像幾年前校招里最火的「產(chǎn)品經(jīng)理」一崗,并不代表你一畢業(yè)就當(dāng)上了經(jīng)理。

          數(shù)據(jù)科學(xué)家,來者何人?

          那么數(shù)據(jù)科學(xué)家這一個(gè)詞是怎么來的呢?

          業(yè)界普遍認(rèn)為,這個(gè)詞是由DJ Patil在領(lǐng)英時(shí)發(fā)明的[1]。2008年 Jeff Hamerbatcher 與 DJ Patil 分別在 Facebook、LinkedIn 領(lǐng)導(dǎo)全球第一支數(shù)據(jù)科學(xué)團(tuán)隊(duì),至此數(shù)據(jù)科學(xué)越來越被廣泛流行,并應(yīng)用到公共衛(wèi)生、市場(chǎng)、金融、社會(huì)等各個(gè)領(lǐng)域。由于Facebook, LinkedIn都在舊金山(San Francisco),所以有的人會(huì)調(diào)侃:

          A data scientist a statistician who lives inSan Francisco

          (數(shù)據(jù)科學(xué)家就是住在舊金山的統(tǒng)計(jì)員)

          在一些公司,工程師對(duì)于大數(shù)據(jù)的處理和利用會(huì)這樣分工:

          有的工程師主要做數(shù)據(jù)倉(cāng)庫(kù)建設(shè),數(shù)據(jù)ETL(Extract, Transform, Load)等工作,他們主要關(guān)注的是基礎(chǔ)架構(gòu)能不能支持大數(shù)據(jù)的存取,怎么存取等等基礎(chǔ)性問題,這種工作,叫數(shù)據(jù)工程(Data Engineering)。

          而有的工程師,是關(guān)注數(shù)據(jù)怎么用,用什么算法來挖掘數(shù)據(jù),用什么統(tǒng)計(jì)方法等等這種工作,為了區(qū)分?jǐn)?shù)據(jù)工程(Engineering) 的工作,這種工作就被叫做數(shù)據(jù)科學(xué)(Data Science)。

          相對(duì)于的,前者一般叫Data Engineer(數(shù)據(jù)工程師),而后者,搞science的人,那就叫Scientist吧!于是后者成了Data Scientist。英文已經(jīng)很唬人了,翻譯成中文「數(shù)據(jù)科學(xué)家」后,就離原來的意思更遠(yuǎn)了。所以,我覺得國(guó)內(nèi)稱之為「算法工程師」更貼切。

          當(dāng)然,數(shù)據(jù)科學(xué)里面確實(shí)有些科學(xué)的部分,例如用統(tǒng)計(jì)方法來解決問題。但總體來說,數(shù)據(jù)科學(xué)家的工作,是屬于工程領(lǐng)域,而非科學(xué)研究領(lǐng)域。

          科學(xué)家?打雜工!

          雖然說是「科學(xué)家」,但做的事情其實(shí)是工程師所做的事。相對(duì)起傳統(tǒng)的軟件工程師,數(shù)據(jù)科學(xué)家做的事情可能專注度更低,但上下游整合的水平更高。

          數(shù)據(jù)科學(xué)家的日常工作可以有多雜?

          我在之前的回答(https://www.zhihu.com/question/22696468/answer/746755379)提到過,這里簡(jiǎn)要概括下:

          1. 商業(yè)邏輯理解與思考占10%時(shí)間)。
          2. 數(shù)據(jù)檢查與清洗(占25%時(shí)間)。這是個(gè)很耗時(shí)又很枯燥的活。誰說data scientist is the sexiest job in 21st century的?檢查檢查數(shù)據(jù)的過程一點(diǎn)都不sexy。
          3. 特征工程(占20%的時(shí)間)。寫代碼,構(gòu)建特征
          4. 數(shù)據(jù)建模(占5%時(shí)間)。這是花時(shí)間最少的階段。
          5. 與客戶,同事,或者上級(jí)溝通(占20%時(shí)間),溝通的內(nèi)容包括:數(shù)據(jù)檢查發(fā)現(xiàn)的問題,項(xiàng)目的進(jìn)度匯報(bào),模型的更新,文檔的更新,給客戶演示新方案等等。
          6. 寫模型文檔,數(shù)據(jù)分析文檔等。(占15%時(shí)間)

          這么看來,數(shù)據(jù)科學(xué)家既像碼農(nóng),也像數(shù)據(jù)分析師,更像ppt制作專家。當(dāng)然,數(shù)據(jù)科學(xué)家最像的,還是洗碗工,別人清洗盤子,我們清洗數(shù)據(jù)。

          上面說的,僅僅只能代表我的日常工作,不敢說所有數(shù)據(jù)科學(xué)家的工作內(nèi)容都和我一樣。因?yàn)閿?shù)據(jù)科學(xué)家這個(gè)職位,并沒有完全被定義清楚,不同公司的數(shù)據(jù)科學(xué)家可能做的事情不一樣,具體有啥不一樣?大家可以去linkedIn上搜搜Data Scientist的招聘信息,看看工作內(nèi)容和技能要求,相信這里面的多樣性會(huì)嚇你一跳。

          你也想來打雜?

          恭喜你看到這里,說明你并沒有被數(shù)據(jù)科學(xué)的繁雜給嚇退,這是成為優(yōu)秀數(shù)據(jù)科學(xué)家的第一步。那么數(shù)據(jù)科學(xué)家的技能包括哪些?我之前寫過一篇回答(https://www.zhihu.com/question/21592677/answer/1866931706)不過有個(gè)外國(guó)的大神做了一張圖,讓我看完覺得,我還是太嫩了。

          圖源:Swami Chandrasekaran[2]

          嘿嘿,被唬住了?放心,這并不是數(shù)據(jù)科學(xué)家的入門門檻。這個(gè)圖僅僅是一個(gè)超集合(superset),也就是說,你并不一定需要全部懂這些才能去當(dāng)個(gè)數(shù)據(jù)科學(xué)家。

          如果你是從軟件工程師轉(zhuǎn)成數(shù)據(jù)科學(xué)家的,你的優(yōu)勢(shì)會(huì)多些,因?yàn)檫@依然是工程類的職位,對(duì)基本的編程能力還是很看重。在《 數(shù)據(jù)科學(xué)家訪談錄》[3]一書中,Khan Academy數(shù)據(jù)科學(xué)主管Jace Kohlmeier說:

          “依我之見,如果想要成為一名出色的數(shù)據(jù)科學(xué)家,你必須也是一名出色(至少是非常高效)的程序員。”

          但即使你掌握了以上知識(shí),你也不能立刻成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家。在數(shù)據(jù)科學(xué)里,最重要的是根據(jù)業(yè)務(wù)不同摸索出不同的實(shí)踐,這需要具體的商業(yè)背景或者學(xué)科背景。MailChimp首席科學(xué)家Jonh Foreman說:

          “如果你將數(shù)據(jù)科學(xué)作為一個(gè)學(xué)科,深入其中進(jìn)行調(diào)查得越多,你就越會(huì)發(fā)現(xiàn),這個(gè)看似籠統(tǒng)的大傘下面,掩蓋了非常多的技術(shù)、數(shù)據(jù)集以及學(xué)科背景。”[3]

          當(dāng)然,作為數(shù)據(jù)科學(xué)家,我們的職責(zé)是推進(jìn)技術(shù)落地,讓技術(shù)產(chǎn)生價(jià)值。那么落地能力包括哪些呢?大家可以看看,這里就不再贅述了。

          恭喜你看到這里,你已經(jīng)具備了一名優(yōu)秀數(shù)據(jù)科學(xué)家必須的品質(zhì)——耐心。

          所以,你真的想好要來大數(shù)據(jù)里摸爬滾打,在統(tǒng)計(jì)學(xué)的世界里打雜了嗎?

          點(diǎn)擊閱讀「數(shù)據(jù)行業(yè)非完全入門指南」

          參考

          [ 1 ] https://observer.com/2019/11/data-scientist-inventor-dj-patil-interview-linkedin-job-market-trend

          [ 2 ] http://nirvacana.com/thoughts/wp-content/uploads/2018/01/RoadToDataScientist1.png

          [ 3 ] 數(shù)據(jù)科學(xué)家訪談錄. 978-7-115-47091-1. 作者: 【美】Carl Shan(單研) William Chen(陳子蔚) Henry Wang(汪強(qiáng)明) Max Song(宋邁思). 譯者: 田原劉奕.


          桔了個(gè)仔

          Data Scientist,擅長(zhǎng)領(lǐng)域:風(fēng)控/反洗錢

          熱衷于人工智能/機(jī)器學(xué)習(xí)/編程/科技/技術(shù)的鏟屎官

          推薦閱讀-

          深度學(xué)習(xí)系列

          機(jī)器學(xué)習(xí)系列
          文末,粉絲福利來了!!關(guān)注【算法進(jìn)階】 ??

          后臺(tái)回復(fù)【課程】,即可免費(fèi)領(lǐng)取Python|機(jī)器學(xué)習(xí)|AI 精品課程大全

          機(jī)??器學(xué)習(xí)算法交流群,邀您加入!!!

          入群可以:提問求助、認(rèn)識(shí)行業(yè)內(nèi)同學(xué)、交流進(jìn)步、共享資源...

          掃描??下方二維碼,備注“加群”


          瀏覽 107
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美一级黄色A片 | 国产成人无码精品久久久一区 | 色狠狠一区二区三区香蕉 | www.色婷婷五月综合在线色吧 | 淫色一区二区 |