【數(shù)據(jù)科學(xué)家】如何成為一名數(shù)據(jù)科學(xué)家?
日期 : 2021年04月07日
正文共 :4626字

一、數(shù)據(jù)科學(xué)家的起源
“數(shù)據(jù)科學(xué)”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用來代替”計(jì)算機(jī)科學(xué)”(丹麥人,2005年圖靈獎(jiǎng)得主,丹麥的計(jì)算機(jī)學(xué)會(huì)的正式名稱就叫Danish Society of Datalogy,他是這個(gè)學(xué)會(huì)的第一任主席。Algol 60是許多后來的程序設(shè)計(jì)語言,包括今天那些必不可少的軟件工程工具的原型。圖靈獎(jiǎng)被認(rèn)為是“計(jì)算科學(xué)界的諾貝爾獎(jiǎng)”。)
1996年,International Federation of Classification Societies (IFCS)國際會(huì)議召開。數(shù)據(jù)科學(xué)一詞首次出現(xiàn)在會(huì)議(Data Science, classification, and related methods)標(biāo)題里。
1998年,C.F. Jeff Wu做出題為“統(tǒng)計(jì)學(xué)=數(shù)據(jù)科學(xué)嗎?的演講,建議統(tǒng)計(jì)改名數(shù)據(jù)的科學(xué)統(tǒng)計(jì)數(shù)據(jù)的科學(xué)家。(吳教授于1987年獲得COPSS獎(jiǎng),2000年在臺(tái)灣被選為中研院院士,2004年作為第一位統(tǒng)計(jì)學(xué)者當(dāng)選美國國家工程院院士,也是第一位華人統(tǒng)計(jì)學(xué)者獲此殊榮。)
2002年,國際科學(xué)理事會(huì):數(shù)據(jù)委員會(huì)科學(xué)和技術(shù)(CODATA)開始出版數(shù)據(jù)科學(xué)雜志。
2003年,美國哥倫比亞大學(xué)開始發(fā)布數(shù)據(jù)科學(xué)雜志,主要內(nèi)容涵蓋統(tǒng)計(jì)方法和定量研究中的應(yīng)用。
2005年,美國國家科學(xué)委員會(huì)發(fā)表了”Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century”,其中給出數(shù)據(jù)科學(xué)家的定義:
“the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection”
信息科學(xué)與計(jì)算機(jī)科學(xué)家,數(shù)據(jù)庫和軟件工程師,領(lǐng)域?qū)<?,策展人和?biāo)注專家,圖書管理員,檔案員等數(shù)字?jǐn)?shù)據(jù)管理收集者都以可成為數(shù)據(jù)科學(xué)家。它們主要任務(wù)是:”進(jìn)行富有創(chuàng)造性的查詢和分析?!?/span>
2012年,O’Reilly媒體的創(chuàng)始人 Tim O’Reilly 列出了世界上排名前7位的數(shù)據(jù)科學(xué)家。
Larry Page,谷歌CEO。 Jeff Hammerbacher,Cloudera的首席科學(xué)家和DJ Patil,Greylock風(fēng)險(xiǎn)投資公司企業(yè)家。 Sebastian Thrun,斯坦福大學(xué)教授和Peter Norvig,谷歌數(shù)據(jù)科學(xué)家。 Elizabeth Warren,Massachusetts州美國參議院候選人。 Todd Park,人類健康服務(wù)部門首席技術(shù)官。 Sandy Pentland,麻省理工學(xué)院教授。 Hod Lipson and Michael Schmidt,康奈爾大學(xué)計(jì)算機(jī)科學(xué)家。
你能列出十個(gè)著名的女性數(shù)據(jù)科學(xué)家嗎?Can you name 10 famous data scientist women?
誰是最富有的數(shù)據(jù)科學(xué)家?Who are the wealthiest data scientists?
請(qǐng)列出對(duì)大數(shù)據(jù)最具有影響力的20個(gè)人?Who Are The Top 20 Influencers in Big Data?
for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.
Anjul Bhambhri,IBM的大數(shù)據(jù)產(chǎn)品副總裁。
Jonathan Goldman,LinkedIn數(shù)據(jù)科學(xué)家。
John Rauser, 亞馬遜大數(shù)據(jù)科學(xué)家:
Steven Hillion, EMC Greenplum數(shù)據(jù)分析副總裁:
Monica Rogati, LinkedIn資深數(shù)據(jù)科學(xué)家:
Daniel Tunkelang,LinkedIn首席數(shù)據(jù)科學(xué)家:
Michael Rappa,北卡羅萊納州立大學(xué)教授:
林仕鼎,百度大數(shù)據(jù)首席架構(gòu)師
數(shù)據(jù)科學(xué)家傾向于用探索數(shù)據(jù)的方式來看待周圍的世界。(好奇心) 把大量散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù),還要找出豐富的數(shù)據(jù)源,整合其他可能不完整的數(shù)據(jù)源,并清理成結(jié)果數(shù)據(jù)集。(問題分體整理能力) 新的競爭環(huán)境中,挑戰(zhàn)不斷地變化,新數(shù)據(jù)不斷地流入,數(shù)據(jù)科學(xué)家需要幫助決策者穿梭于各種分析,從臨時(shí)數(shù)據(jù)分析到持續(xù)的數(shù)據(jù)交互分析。(快速學(xué)習(xí)能力) 數(shù)據(jù)科學(xué)家會(huì)遇到技術(shù)瓶頸,但他們能夠找到新穎的解決方案。(問題轉(zhuǎn)化能力) 當(dāng)他們有所發(fā)現(xiàn),便交流他們的發(fā)現(xiàn),建議新的業(yè)務(wù)方向。(業(yè)務(wù)精通) 他們很有創(chuàng)造力的展示視覺化的信息,也讓找到的模式清晰而有說服力。(表現(xiàn)溝通能力) 他們會(huì)把蘊(yùn)含在數(shù)據(jù)中的規(guī)律建議給Boss,從而影響產(chǎn)品,流程和決策。(決策力)
零基礎(chǔ)學(xué)習(xí) Hadoop 該如何下手? 想從事大數(shù)據(jù)、海量數(shù)據(jù)處理相關(guān)的工作,如何自學(xué)打基礎(chǔ)?
如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘? 做數(shù)據(jù)分析不得不看的書有哪些? 怎么學(xué)習(xí)用R語言進(jìn)行數(shù)據(jù)挖掘?
有哪些值得推薦的數(shù)據(jù)可視化工具?
The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.
* 數(shù)據(jù)挖掘相關(guān)的統(tǒng)計(jì)方法(多元Logistic回歸分析、非線性回歸分析、判別分析等)
* 定量方法(時(shí)間軸分析、概率模型、優(yōu)化)
* 決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
* 樹立競爭優(yōu)勢(shì)的分析(通過項(xiàng)目和成功案例學(xué)習(xí)基本的分析理念)
* 數(shù)據(jù)庫入門(數(shù)據(jù)模型、數(shù)據(jù)庫設(shè)計(jì))
* 預(yù)測(cè)分析(時(shí)間軸分析、主成分分析、非參數(shù)回歸、統(tǒng)計(jì)流程控制)
* 數(shù)據(jù)管理(ETL(Extract、Transform、Load)、數(shù)據(jù)治理、管理責(zé)任、元數(shù)據(jù))
* 優(yōu)化與啟發(fā)(整數(shù)計(jì)劃法、非線性計(jì)劃法、局部探索法、超啟發(fā)(模擬退火、遺傳算法))
* 大數(shù)據(jù)分析(非結(jié)構(gòu)化數(shù)據(jù)概念的學(xué)習(xí)、MapReduce技術(shù)、大數(shù)據(jù)分析方法)
* 數(shù)據(jù)挖掘(聚類(k-means法、分割法)、關(guān)聯(lián)性規(guī)則、因子分析、存活時(shí)間分析)
* 其他,以下任選兩門(社交網(wǎng)絡(luò)、文本分析、Web分析、財(cái)務(wù)分析、服務(wù)業(yè)中的分析、能源、健康醫(yī)療、供應(yīng)鏈管理、綜合營銷溝通中的概率模型)
* 風(fēng)險(xiǎn)分析與運(yùn)營分析的計(jì)算機(jī)模擬
* 軟件層面的分析學(xué)(組織層面的分析課題、IT與業(yè)務(wù)用戶、變革管理、數(shù)據(jù)課題、結(jié)果的展現(xiàn)與傳達(dá)方法)

(5)分享一些免費(fèi)的課程
以下課程免費(fèi),講師都是領(lǐng)域的專家,需要提前報(bào)名,請(qǐng)注意開班的時(shí)間。
Coursera.org:統(tǒng)計(jì)學(xué)。 Coursera.org:機(jī)器學(xué)習(xí)。 Coursera.org:數(shù)據(jù)分析的計(jì)算方法。 Coursera.org:大數(shù)據(jù)。 Coursera.org:數(shù)據(jù)科學(xué)導(dǎo)論。 Coursera.org:數(shù)據(jù)分析。
Statistical Thinking and Data Analysis:麻省理工學(xué)院的統(tǒng)計(jì)思維與數(shù)據(jù)分析課。概率抽樣,回歸,常見分布等。 Data Mining | Sloan School of Management:麻省理工學(xué)院的數(shù)據(jù)挖掘課程,數(shù)據(jù)挖掘的知識(shí)以及機(jī)器學(xué)習(xí)算法。 Rice University Data Visualization:萊斯大學(xué)的數(shù)據(jù)可視化,從統(tǒng)計(jì)學(xué)的角度分析信息可視化。 Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大學(xué),如何在數(shù)學(xué)計(jì)算與數(shù)據(jù)交互可視化之間架起橋梁。 UC Berkeley Visualization:加州大學(xué)伯克利分校數(shù)據(jù)可視化。 Data Literacy Course — IAP:兩個(gè)MIT的數(shù)據(jù)研究生,如何分析處理可視化數(shù)據(jù)。 Columbia University Applied Data Science:哥倫比亞大學(xué),數(shù)據(jù)分析方法。需要一定的數(shù)據(jù)基礎(chǔ)。 SML: Systems:加州大學(xué)伯克利分校,可擴(kuò)展的機(jī)器學(xué)習(xí)方法。從硬件系統(tǒng),并行化范式到MapReduce+Hadoop+BigTable,非常全面系統(tǒng)。


In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections. Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020. In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%. Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world’s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%. In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.

— THE END —

