<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【數(shù)據(jù)科學(xué)家】如何成為一名數(shù)據(jù)科學(xué)家?

          共 10170字,需瀏覽 21分鐘

           ·

          2021-04-08 20:48

          數(shù)學(xué)算法俱樂部

          日期 : 2021年04月07日       

          正文共 :4626

          來源 : 數(shù)據(jù)科學(xué)家


          一、數(shù)據(jù)科學(xué)家的起源

          “數(shù)據(jù)科學(xué)”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用來代替”計(jì)算機(jī)科學(xué)”(丹麥人,2005年圖靈獎(jiǎng)得主,丹麥的計(jì)算機(jī)學(xué)會(huì)的正式名稱就叫Danish Society of Datalogy,他是這個(gè)學(xué)會(huì)的第一任主席。Algol 60是許多后來的程序設(shè)計(jì)語言,包括今天那些必不可少的軟件工程工具的原型。圖靈獎(jiǎng)被認(rèn)為是“計(jì)算科學(xué)界的諾貝爾獎(jiǎng)”。)

          1996年,International Federation of Classification Societies (IFCS)國際會(huì)議召開。數(shù)據(jù)科學(xué)一詞首次出現(xiàn)在會(huì)議(Data Science, classification, and related methods)標(biāo)題里。

          1998年,C.F. Jeff Wu做出題為“統(tǒng)計(jì)學(xué)=數(shù)據(jù)科學(xué)嗎?的演講,建議統(tǒng)計(jì)改名數(shù)據(jù)的科學(xué)統(tǒng)計(jì)數(shù)據(jù)的科學(xué)家。(吳教授于1987年獲得COPSS獎(jiǎng),2000年在臺(tái)灣被選為中研院院士,2004年作為第一位統(tǒng)計(jì)學(xué)者當(dāng)選美國國家工程院院士,也是第一位華人統(tǒng)計(jì)學(xué)者獲此殊榮。)

          2002年,國際科學(xué)理事會(huì):數(shù)據(jù)委員會(huì)科學(xué)和技術(shù)(CODATA)開始出版數(shù)據(jù)科學(xué)雜志。

          2003年,美國哥倫比亞大學(xué)開始發(fā)布數(shù)據(jù)科學(xué)雜志,主要內(nèi)容涵蓋統(tǒng)計(jì)方法和定量研究中的應(yīng)用。

          2005年,美國國家科學(xué)委員會(huì)發(fā)表了”Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century”,其中給出數(shù)據(jù)科學(xué)家的定義:

          “the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection”

          信息科學(xué)與計(jì)算機(jī)科學(xué)家,數(shù)據(jù)庫和軟件工程師,領(lǐng)域?qū)<?,策展人和?biāo)注專家,圖書管理員,檔案員等數(shù)字?jǐn)?shù)據(jù)管理收集者都以可成為數(shù)據(jù)科學(xué)家。它們主要任務(wù)是:”進(jìn)行富有創(chuàng)造性的查詢和分析?!?/span>

          2012年,O’Reilly媒體的創(chuàng)始人 Tim O’Reilly 列出了世界上排名前7位的數(shù)據(jù)科學(xué)家。

          • Larry Page,谷歌CEO。
          • Jeff Hammerbacher,Cloudera的首席科學(xué)家和DJ Patil,Greylock風(fēng)險(xiǎn)投資公司企業(yè)家。
          • Sebastian Thrun,斯坦福大學(xué)教授和Peter Norvig,谷歌數(shù)據(jù)科學(xué)家。
          • Elizabeth Warren,Massachusetts州美國參議院候選人。
          • Todd Park,人類健康服務(wù)部門首席技術(shù)官。
          • Sandy Pentland,麻省理工學(xué)院教授。
          • Hod Lipson and Michael Schmidt,康奈爾大學(xué)計(jì)算機(jī)科學(xué)家。
          具體有時(shí)間再補(bǔ)充,感興趣的朋友可以Google Scholar一下他們的文獻(xiàn)。
          關(guān)于數(shù)據(jù)科學(xué)家的更多討論:
          你能列出十個(gè)著名的女性數(shù)據(jù)科學(xué)家嗎?Can you name 10 famous data scientist women?
          誰是最富有的數(shù)據(jù)科學(xué)家?Who are the wealthiest data scientists?
          請(qǐng)列出對(duì)大數(shù)據(jù)最具有影響力的20個(gè)人?Who Are The Top 20 Influencers in Big Data?
          二、數(shù)據(jù)科學(xué)家的定義
          數(shù)據(jù)科學(xué)(Data Science)是從數(shù)據(jù)中提取知識(shí)的研究,關(guān)鍵是科學(xué)。數(shù)據(jù)科學(xué)集成了多種領(lǐng)域的不同元素,包括信號(hào)處理,數(shù)學(xué),概率模型技術(shù)和理論,機(jī)器學(xué)習(xí),計(jì)算機(jī)編程,統(tǒng)計(jì)學(xué),數(shù)據(jù)工程,模式識(shí)別和學(xué)習(xí),可視化,不確定性建模,數(shù)據(jù)倉庫,以及從數(shù)據(jù)中析取規(guī)律和產(chǎn)品的高性能計(jì)算。數(shù)據(jù)科學(xué)并不局限于大數(shù)據(jù),但是數(shù)據(jù)量的擴(kuò)大誠然使得數(shù)據(jù)科學(xué)的地位越發(fā)重要。
          數(shù)據(jù)科學(xué)的從業(yè)者被稱為數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家通過精深的專業(yè)知識(shí)在某些科學(xué)學(xué)科解決復(fù)雜的數(shù)據(jù)問題。不遠(yuǎn)的將來,數(shù)據(jù)科學(xué)家們需要精通一門、兩門甚至多門學(xué)科,同時(shí)使用數(shù)學(xué),統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的生產(chǎn)要素展開工作。所以數(shù)據(jù)科學(xué)家就如同一個(gè)team。
          曾經(jīng)投資過Facebook,LinkedIn的格雷洛克風(fēng)險(xiǎn)投資公司把數(shù)據(jù)科學(xué)家描述成“能夠管理和洞察數(shù)據(jù)的人”。在IBM的網(wǎng)站上,數(shù)據(jù)科學(xué)家的角色被形容成“一半分析師,一半藝術(shù)家”。他們代表了商業(yè)或數(shù)據(jù)分析這個(gè)角色的一個(gè)進(jìn)化。
          for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.
          • Anjul Bhambhri,IBM的大數(shù)據(jù)產(chǎn)品副總裁。
          數(shù)據(jù)科學(xué)家是一個(gè)好奇的,不斷質(zhì)疑現(xiàn)有假設(shè),能盯著數(shù)據(jù)就能指出趨勢(shì)的人。這就好像在文藝復(fù)興時(shí)期,一個(gè)非常想為組織帶來挑戰(zhàn)并從挑戰(zhàn)中學(xué)習(xí)的人一樣。
          • Jonathan Goldman,LinkedIn數(shù)據(jù)科學(xué)家。
          2006年的6月份進(jìn)入商務(wù)社交網(wǎng)站LinkedIn,當(dāng)時(shí)LinkedIn只有不到800萬用戶。高德曼在之后的研究中創(chuàng)造出新的模型,利用數(shù)據(jù)預(yù)測(cè)注冊(cè)用戶的人際網(wǎng)絡(luò)。具體來講,他以用戶在LinkedIn的個(gè)人資料,來找到和這些信息最匹配的三個(gè)人,并以推薦的形式顯示在用戶的使用頁面上——這也就是我們熟悉的”你可能認(rèn)識(shí)的人(People you may know)”。這個(gè)小小的功能讓LinkedIn增加了數(shù)百萬的新的頁面點(diǎn)擊量(數(shù)據(jù)挖掘的應(yīng)用典型之一推薦系統(tǒng))。
          • John Rauser, 亞馬遜大數(shù)據(jù)科學(xué)家:
          數(shù)據(jù)科學(xué)家是工程師和統(tǒng)計(jì)學(xué)家的結(jié)合體。從事這個(gè)職位要求極強(qiáng)的駕馭和管理海量數(shù)據(jù)的能力;同時(shí)也需要有像統(tǒng)計(jì)學(xué)家一樣萃取、分析數(shù)據(jù)價(jià)值的本事,二者缺一不可。
          • Steven Hillion, EMC Greenplum數(shù)據(jù)分析副總裁:
          數(shù)據(jù)科學(xué)家是具有極強(qiáng)分析能力和對(duì)統(tǒng)計(jì)和數(shù)學(xué)有很深研究的數(shù)據(jù)工程師。他們能從商業(yè)信息等其他復(fù)雜且海量的數(shù)據(jù)庫中洞察新趨勢(shì)。
          • Monica Rogati, LinkedIn資深數(shù)據(jù)科學(xué)家:
          所有的科學(xué)家都是數(shù)據(jù)學(xué)家,因?yàn)樗麄冋於荚诤秃A繑?shù)據(jù)打交道。在我眼中,數(shù)據(jù)學(xué)家是一半黑客加一半分析師。他們通過數(shù)據(jù)建立看待事物的新維度。數(shù)據(jù)學(xué)家必須能夠用一只眼睛發(fā)現(xiàn)新世界,用另一只眼睛質(zhì)疑自己的發(fā)現(xiàn)。
          • Daniel Tunkelang,LinkedIn首席數(shù)據(jù)科學(xué)家:
          我是bitly 首席科學(xué)家Hilary Mason的忠實(shí)崇拜者。關(guān)于這個(gè)新概念的定義我也想引用她的說法:數(shù)據(jù)科學(xué)家是能夠利用各種信息獲取方式、統(tǒng)計(jì)學(xué)原理和機(jī)器的學(xué)習(xí)能力對(duì)其掌握的數(shù)據(jù)進(jìn)行收集、去噪、分析并解讀的角色。
          • Michael Rappa,北卡羅萊納州立大學(xué)教授:
          盡管數(shù)據(jù)科學(xué)家這個(gè)名稱最近才開始在硅谷出現(xiàn),但這個(gè)新職業(yè)的產(chǎn)生卻是基于人類上百年對(duì)數(shù)據(jù)分析的不斷積累和衍生。和數(shù)據(jù)科學(xué)家最接近的職業(yè)應(yīng)該是統(tǒng)計(jì)學(xué)家,只不過統(tǒng)計(jì)學(xué)家是一個(gè)成熟的定義且服務(wù)領(lǐng)域基本局限于政府和學(xué)界。數(shù)據(jù)科學(xué)家把統(tǒng)計(jì)學(xué)的精髓帶到了更多的行業(yè)和領(lǐng)域。
          • 林仕鼎,百度大數(shù)據(jù)首席架構(gòu)師
          如果從廣義的角度講,從事數(shù)據(jù)處理、加工、分析等工作的數(shù)據(jù)科學(xué)家、數(shù)據(jù)架構(gòu)師和數(shù)據(jù)工程師都可以籠統(tǒng)地稱為數(shù)據(jù)科學(xué)家;而從狹義的角度講,那些具有數(shù)據(jù)分析能力,精通各類算法,直接處理數(shù)據(jù)的人員才可以稱為數(shù)據(jù)科學(xué)家。
          最后引用Thomas H. Davenport(埃森哲戰(zhàn)略變革研究院主任) 和 D.J. Patil(美國科學(xué)促進(jìn)會(huì)科學(xué)與技術(shù)政策研究員,為美國國防部服務(wù))的話來總結(jié)數(shù)據(jù)科學(xué)家需要具備的能力:
          • 數(shù)據(jù)科學(xué)家傾向于用探索數(shù)據(jù)的方式來看待周圍的世界。(好奇心)
          • 把大量散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù),還要找出豐富的數(shù)據(jù)源,整合其他可能不完整的數(shù)據(jù)源,并清理成結(jié)果數(shù)據(jù)集。(問題分體整理能力)
          • 新的競爭環(huán)境中,挑戰(zhàn)不斷地變化,新數(shù)據(jù)不斷地流入,數(shù)據(jù)科學(xué)家需要幫助決策者穿梭于各種分析,從臨時(shí)數(shù)據(jù)分析到持續(xù)的數(shù)據(jù)交互分析。(快速學(xué)習(xí)能力)
          • 數(shù)據(jù)科學(xué)家會(huì)遇到技術(shù)瓶頸,但他們能夠找到新穎的解決方案。(問題轉(zhuǎn)化能力)
          • 當(dāng)他們有所發(fā)現(xiàn),便交流他們的發(fā)現(xiàn),建議新的業(yè)務(wù)方向。(業(yè)務(wù)精通
          • 他們很有創(chuàng)造力的展示視覺化的信息,也讓找到的模式清晰而有說服力。(表現(xiàn)溝通能力)
          • 他們會(huì)把蘊(yùn)含在數(shù)據(jù)中的規(guī)律建議給Boss,從而影響產(chǎn)品,流程和決策。(決策力)

          三、數(shù)據(jù)科學(xué)家所需硬件技能
          (1) 計(jì)算機(jī)科學(xué)
          一般來說,數(shù)據(jù)科學(xué)家大多要求具備編程、計(jì)算機(jī)科學(xué)相關(guān)的專業(yè)背景。簡單來說,就是對(duì)處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機(jī)器學(xué)習(xí)相關(guān)的技能。
          • 零基礎(chǔ)學(xué)習(xí) Hadoop 該如何下手?
          • 想從事大數(shù)據(jù)、海量數(shù)據(jù)處理相關(guān)的工作,如何自學(xué)打基礎(chǔ)?
          (2) 數(shù)學(xué)、統(tǒng)計(jì)、數(shù)據(jù)挖掘等
          除了數(shù)學(xué)、統(tǒng)計(jì)方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計(jì)分析軟件的技能。其中,面向統(tǒng)計(jì)分析的開源編程語言及其運(yùn)行環(huán)境“R”最近備受矚目。R的強(qiáng)項(xiàng)不僅在于其包含了豐富的統(tǒng)計(jì)分析庫,而且具備將結(jié)果進(jìn)行可視化的高品質(zhì)圖表生成功能,并可以通過簡單的命令來運(yùn)行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴(kuò)展機(jī)制,通過導(dǎo)入擴(kuò)展包就可以使用標(biāo)準(zhǔn)狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。R語言雖然功能強(qiáng)大,但是學(xué)習(xí)曲線較為陡峭,個(gè)人建議從python入手,擁有豐富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。
          • 如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘?
          • 做數(shù)據(jù)分析不得不看的書有哪些?
          • 怎么學(xué)習(xí)用R語言進(jìn)行數(shù)據(jù)挖掘?
          (3) 數(shù)據(jù)可視化(Visualization)
          信息的質(zhì)量很大程度上依賴于其表達(dá)方式。對(duì)數(shù)字羅列所組成的數(shù)據(jù)中所包含的意義進(jìn)行分析,開發(fā)Web原型,使用外部API將圖表、地圖、Dashboard等其他服務(wù)統(tǒng)一起來,從而使分析結(jié)果可視化,這是對(duì)于數(shù)據(jù)科學(xué)家來說十分重要的技能之一。
          • 有哪些值得推薦的數(shù)據(jù)可視化工具?
          (4) 跨界為王
          麥肯錫認(rèn)為未來需要更多的“translators”,能夠在IT技術(shù),數(shù)據(jù)分析和商業(yè)決策之間架起一座橋梁的復(fù)合型人才是最被人需要的?!眛ranslators“可以驅(qū)動(dòng)整個(gè)數(shù)據(jù)分析戰(zhàn)略的設(shè)計(jì)和執(zhí)行,同時(shí)連接的IT ,數(shù)據(jù)分析和業(yè)務(wù)部門的團(tuán)隊(duì)。如果缺少“translators“,即使擁有高端的數(shù)據(jù)分析策略和工具方法也是于事無補(bǔ)的。
          The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.
          天才的”translators“非常罕見。但是大家可以各敬其職(三個(gè)臭皮匠臭死諸葛亮),數(shù)據(jù)戰(zhàn)略家可以使用IT知識(shí)和經(jīng)驗(yàn)來制定商業(yè)決策,數(shù)據(jù)科學(xué)家可以結(jié)合對(duì)專業(yè)知識(shí)的深入理解使用IT技術(shù)開發(fā)復(fù)雜的模型和算法,分析顧問可以結(jié)合實(shí)際的業(yè)務(wù)知識(shí)與分析經(jīng)驗(yàn)聚焦下一個(gè)行業(yè)爆點(diǎn)。
          推薦關(guān)注:facebook.com/data
          四、數(shù)據(jù)科學(xué)家的培養(yǎng)
          位于伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學(xué)——西北大學(xué)(Northwestern University),就是其中之一。西北大學(xué)決定從2012年9月起在其工程學(xué)院下成立一個(gè)主攻大數(shù)據(jù)分析課程的分析學(xué)研究生院,并開始了招生工作。西北大學(xué)對(duì)于成立該研究生院是這樣解釋的:“雖然只要具備一些Hadoop和Cassandra的基本知識(shí)就很容易找到工作,但擁有深入知識(shí)的人才卻是十分缺乏的。”
          此外,該研究生院的課程計(jì)劃以“傳授和指導(dǎo)將業(yè)務(wù)引向成功的技能,培養(yǎng)能夠領(lǐng)導(dǎo)項(xiàng)目團(tuán)隊(duì)的優(yōu)秀分析師”為目標(biāo),授課內(nèi)容在數(shù)學(xué)、統(tǒng)計(jì)學(xué)的基礎(chǔ)上,融合了尖端計(jì)算機(jī)工程學(xué)和數(shù)據(jù)分析。課程預(yù)計(jì)將涵蓋分析領(lǐng)域中主要的三種數(shù)據(jù)分析方法:預(yù)測(cè)分析、描述分析(商業(yè)智能和數(shù)據(jù)挖掘)和規(guī)范分析(優(yōu)化和模擬),具體內(nèi)容如下。
          (1) 秋學(xué)期
          * 數(shù)據(jù)挖掘相關(guān)的統(tǒng)計(jì)方法(多元Logistic回歸分析、非線性回歸分析、判別分析等)
          * 定量方法(時(shí)間軸分析、概率模型、優(yōu)化)
          * 決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
          * 樹立競爭優(yōu)勢(shì)的分析(通過項(xiàng)目和成功案例學(xué)習(xí)基本的分析理念)
          (2) 冬學(xué)期
          * 數(shù)據(jù)庫入門(數(shù)據(jù)模型、數(shù)據(jù)庫設(shè)計(jì))
          * 預(yù)測(cè)分析(時(shí)間軸分析、主成分分析、非參數(shù)回歸、統(tǒng)計(jì)流程控制)
          * 數(shù)據(jù)管理(ETL(Extract、Transform、Load)、數(shù)據(jù)治理、管理責(zé)任、元數(shù)據(jù))
          * 優(yōu)化與啟發(fā)(整數(shù)計(jì)劃法、非線性計(jì)劃法、局部探索法、超啟發(fā)(模擬退火、遺傳算法))
          (3) 春學(xué)期
          * 大數(shù)據(jù)分析(非結(jié)構(gòu)化數(shù)據(jù)概念的學(xué)習(xí)、MapReduce技術(shù)、大數(shù)據(jù)分析方法)
          * 數(shù)據(jù)挖掘(聚類(k-means法、分割法)、關(guān)聯(lián)性規(guī)則、因子分析、存活時(shí)間分析)
          * 其他,以下任選兩門(社交網(wǎng)絡(luò)、文本分析、Web分析、財(cái)務(wù)分析、服務(wù)業(yè)中的分析、能源、健康醫(yī)療、供應(yīng)鏈管理、綜合營銷溝通中的概率模型)
          (4) 秋學(xué)期
          * 風(fēng)險(xiǎn)分析與運(yùn)營分析的計(jì)算機(jī)模擬
          * 軟件層面的分析學(xué)(組織層面的分析課題、IT與業(yè)務(wù)用戶、變革管理、數(shù)據(jù)課題、結(jié)果的展現(xiàn)與傳達(dá)方法)

          (EMC的在線課程:Data Science and Big Data Analytics Training,收費(fèi)T_T,大家可以了解下學(xué)習(xí)路徑)
          (5)分享一些免費(fèi)的課程
          以下課程免費(fèi),講師都是領(lǐng)域的專家,需要提前報(bào)名,請(qǐng)注意開班的時(shí)間。
          • Coursera.org:統(tǒng)計(jì)學(xué)。
          • Coursera.org:機(jī)器學(xué)習(xí)。
          • Coursera.org:數(shù)據(jù)分析的計(jì)算方法。
          • Coursera.org:大數(shù)據(jù)。
          • Coursera.org:數(shù)據(jù)科學(xué)導(dǎo)論。
          • Coursera.org:數(shù)據(jù)分析。
          名校課程,需要一定的英語基礎(chǔ)和計(jì)算機(jī)基礎(chǔ):
          • Statistical Thinking and Data Analysis:麻省理工學(xué)院的統(tǒng)計(jì)思維與數(shù)據(jù)分析課。概率抽樣,回歸,常見分布等。
          • Data Mining | Sloan School of Management:麻省理工學(xué)院的數(shù)據(jù)挖掘課程,數(shù)據(jù)挖掘的知識(shí)以及機(jī)器學(xué)習(xí)算法。
          • Rice University Data Visualization:萊斯大學(xué)的數(shù)據(jù)可視化,從統(tǒng)計(jì)學(xué)的角度分析信息可視化。
          • Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大學(xué),如何在數(shù)學(xué)計(jì)算與數(shù)據(jù)交互可視化之間架起橋梁。
          • UC Berkeley Visualization:加州大學(xué)伯克利分校數(shù)據(jù)可視化。
          • Data Literacy Course — IAP:兩個(gè)MIT的數(shù)據(jù)研究生,如何分析處理可視化數(shù)據(jù)。
          • Columbia University Applied Data Science:哥倫比亞大學(xué),數(shù)據(jù)分析方法。需要一定的數(shù)據(jù)基礎(chǔ)。
          • SML: Systems:加州大學(xué)伯克利分校,可擴(kuò)展的機(jī)器學(xué)習(xí)方法。從硬件系統(tǒng),并行化范式到MapReduce+Hadoop+BigTable,非常全面系統(tǒng)。
          五、數(shù)據(jù)科學(xué)家的前景

          (EMC – Leading Cloud Computing, Big Data, and Trusted IT Solutions,關(guān)于數(shù)據(jù)科學(xué)家的研究)

          Like the physical universe, the digital universe is large – by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe – the data we create and copy annually – will reach 44 zettabytes, or 44 trillion gigabytes.
          EMC預(yù)測(cè),按照目前的情況數(shù)字宇宙以每兩年一番的速度倍增,在2020年將到達(dá)44ZB(1ZB=1.1805916207174113e+21B)。EMC做出了5點(diǎn)比較大膽的預(yù)測(cè)。
          • In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections.
          • Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020.
          • In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%.
          • Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world’s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%.
          • In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.

          Between 2013 and 2020 the division of the digital universe between mature and emerging markets (e.g., China) will switch – from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.
          EMC預(yù)測(cè)在2017年左右新興的市場(chǎng)將超越成熟市場(chǎng),東亞國家是最具潛力的引爆點(diǎn)。(大家是不是有點(diǎn)小激動(dòng),前景一片光明)
          六、結(jié)束語
          推薦網(wǎng)站:
          Data Science Central (數(shù)據(jù)科學(xué)中心,大牛云集,資源豐富,討論者熱情,各種課程)
          祝每一個(gè)DMer都挖掘到金礦和快樂:)
          參考文獻(xiàn):
          [1].Data Scientists: The Definition of Sexy
          [2].《大數(shù)據(jù)的沖擊》. 城田真琴. 野村綜合研究所創(chuàng)新開發(fā)部高級(jí)研究員、IT分析師,日本政府“智能云計(jì)算研究會(huì)”智囊團(tuán)成員
          [3].麥肯錫. Big data: The next frontier for innovation, competition, and productivity
          [4].EMC. Executive Summary: Data Growth, Business Opportunities, and the IT Imperatives
          [5].EMC Greenplum’s Steven Hillion on What Is a Data Scientist?
          [6].LinkedIn’s Monica Rogati On “What Is A Data Scientist?”
          [7].IBM – What is a Data Scientist?
          [8].Data Science and Prediction
          [9].The key word in “Data Science” is not Data, it is Science
          [10].Data Science: How do I become a data scientist?
          [11].A Practical Intro to Data Science
          [12].解碼數(shù)據(jù)科學(xué)家
          原文鏈接:http://blog.sciencenet.cn/blog-81613-792004.html


          — THE END —


          ?完美數(shù):數(shù)學(xué)寶庫中的一顆璀璨明珠
          ?學(xué)渣不要再找借口了,看看40年前的教材!
          ?數(shù)學(xué)的威力:一個(gè)方程提升中國衛(wèi)星圖像質(zhì)量30%
          ?圖解最常用的10個(gè)機(jī)器學(xué)習(xí)算法!
          ?中科院最年輕院士入職浙大!他一篇論文未發(fā)博士畢業(yè)!
          ?通往諾貝爾獎(jiǎng)之路的十個(gè)科學(xué)家族
          瀏覽 107
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久人人妻人人做人人玩精品 | 伊人久久五月天 | 韩国三级在线视频网址 | 国产黄色在线看 | 亚洲狼人影院 |