<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          溫故知新:數(shù)據(jù)科學(xué)札記

          共 13396字,需瀏覽 27分鐘

           ·

          2022-02-15 10:32

          【引子】春節(jié)聊天的時(shí)候,家中少年的一個(gè)發(fā)小剛剛轉(zhuǎn)了個(gè)專業(yè)——數(shù)據(jù)科學(xué),自己似乎對(duì)所謂的”數(shù)據(jù)科學(xué)“了解很多,但又似乎難以區(qū)分其中的一些概念差異,例如,統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)的區(qū)別,,數(shù)據(jù)分析與數(shù)據(jù)科學(xué)的差異?為什么數(shù)據(jù)科學(xué)成為了一個(gè)學(xué)科? 等等。溫故而知新,本文試圖給數(shù)據(jù)科學(xué)一個(gè)老碼農(nóng)自認(rèn)為清晰的描述。

          互聯(lián)網(wǎng)給我們迎來了大數(shù)據(jù)和數(shù)據(jù)經(jīng)濟(jì)的時(shí)代,“大數(shù)據(jù)增長”或者“數(shù)據(jù)泛濫”,不僅引發(fā)了巨大的轟動(dòng),更帶來了巨大挑戰(zhàn),反過來又帶來了超乎想象的創(chuàng)新和經(jīng)濟(jì)機(jī)遇。這些挑戰(zhàn)、機(jī)遇和價(jià)值的認(rèn)識(shí)正在重塑面向數(shù)據(jù)的科學(xué)和工程領(lǐng)域,也正在重塑那些非傳統(tǒng)的數(shù)據(jù)工程領(lǐng)域,如社會(huì)科學(xué)、商業(yè)和管理。這種重塑不僅僅是由數(shù)據(jù)本身驅(qū)動(dòng)的,而且是通過理解、探索和利用數(shù)據(jù)的所有方面。

          這些趨勢(shì)及其潛力引發(fā)了關(guān)于數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)作為一種新范式的辯論,即所謂的“第四科學(xué)范式”,它將實(shí)驗(yàn)、理論和計(jì)算結(jié)合起來。數(shù)據(jù)被認(rèn)為是新的石油和戰(zhàn)略設(shè)置,甚至決定未來的科學(xué)、技術(shù)、經(jīng)濟(jì),乃至我們世界今天和明天的一切。

          現(xiàn)有的知識(shí)和能力可能無法有效地應(yīng)對(duì)這些挑戰(zhàn)和機(jī)會(huì), 于是產(chǎn)生了數(shù)據(jù)科學(xué)這一學(xué)科。它還處于非常早期的階段,正在面臨巨大的炒作甚至是困惑,所獨(dú)有的問題和可能性還不清楚、具體或確定。然而,毫無疑問,數(shù)據(jù)科學(xué)在數(shù)據(jù)驅(qū)動(dòng)理論、經(jīng)濟(jì)和專業(yè)發(fā)展方面的潛力正日益得到認(rèn)可。這不僅涉及核心學(xué)科,如計(jì)算、信息學(xué)和統(tǒng)計(jì)學(xué),還涉及廣泛的商業(yè)、社會(huì)科學(xué)和健康/醫(yī)療領(lǐng)域。

          關(guān)注數(shù)據(jù)科學(xué)而不是大數(shù)據(jù),有一些關(guān)鍵的術(shù)語,如數(shù)據(jù)分析、數(shù)據(jù)分析學(xué)、高級(jí)分析學(xué)、大數(shù)據(jù)、數(shù)據(jù)科學(xué)、深度分析、描述性分析、預(yù)測(cè)分析和規(guī)定性分析,這些術(shù)語高度相關(guān),很容易混淆,數(shù)據(jù)科學(xué)術(shù)語列表可以在 www.datasciences.org 網(wǎng)站上找到。

          那么,什么是數(shù)據(jù)科學(xué)?數(shù)據(jù)科學(xué)的主要特征和活動(dòng)現(xiàn)狀如何?數(shù)據(jù)科學(xué)的基石是數(shù)據(jù)分析,它的進(jìn)化和范式轉(zhuǎn)換是什么?數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新的方向,新數(shù)據(jù)驅(qū)動(dòng)的工業(yè)化和服務(wù)機(jī)會(huì)?數(shù)據(jù)科學(xué)的學(xué)科作用和可能的課程框架呢?

          1. 數(shù)據(jù)科學(xué)的起源

          “數(shù)據(jù)科學(xué)”作為一個(gè)術(shù)語的第一次出現(xiàn)很可能是在1974年出版的《計(jì)算機(jī)方法簡明概覽》一書的序言中。在這篇序言中,數(shù)據(jù)科學(xué)被定義為“建立數(shù)據(jù)和處理數(shù)據(jù)的科學(xué),而數(shù)據(jù)與它們所代表的東西之間的關(guān)系則被委托給其他領(lǐng)域和科學(xué)?!?/p>

          從數(shù)據(jù)分析到數(shù)據(jù)科學(xué)的進(jìn)化歷程始于1962年的統(tǒng)計(jì)學(xué)界。有人說,“數(shù)據(jù)分析本質(zhì)上是一門經(jīng)驗(yàn)科學(xué)”,推動(dòng)數(shù)據(jù)處理的原創(chuàng)工作包括信息處理和探索性數(shù)據(jù)分析。有人建議,需要更加重視利用數(shù)據(jù)提出合適的假設(shè)來檢驗(yàn),這促成了1989年后期的“數(shù)據(jù)驅(qū)動(dòng)發(fā)現(xiàn)”。2001年,開始有人把統(tǒng)計(jì)學(xué)的技術(shù)領(lǐng)域擴(kuò)展到數(shù)據(jù)科學(xué)。

          在統(tǒng)計(jì)學(xué)中扮演主要角色的是描述性分析,即定量總結(jié)或描述數(shù)據(jù)樣本集的特征和測(cè)量。如今,描述性分析構(gòu)成了數(shù)據(jù)分析和商業(yè)智能系統(tǒng)中默認(rèn)分析和報(bào)告的基礎(chǔ)。對(duì)早年數(shù)據(jù)分析作用的理解不僅限于數(shù)據(jù)的探索和處理,還有1977年期望的”將數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí)”。20多年后,促成了ACM SIGKDD 會(huì)議,從那時(shí)起,”數(shù)據(jù)挖掘”、”知識(shí)發(fā)現(xiàn)”和數(shù)據(jù)分析等關(guān)鍵術(shù)語不僅在計(jì)算機(jī)科學(xué)中,而且在其他領(lǐng)域和學(xué)科中得到越來越多的承認(rèn)。數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)中發(fā)現(xiàn)隱藏知識(shí)的過程。最新的發(fā)展是創(chuàng)建了全球和區(qū)域性的數(shù)據(jù)科學(xué)會(huì)議,尤其是 IEEE 國際會(huì)議的數(shù)據(jù)科學(xué)和高級(jí)分析(DSAA 2014),DSAA 還得到了 IEEE、 ACM 和美國統(tǒng)計(jì)協(xié)會(huì)的聯(lián)合支持。

          數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)和機(jī)器學(xué)習(xí)的發(fā)展,與原始數(shù)據(jù)分析和從統(tǒng)計(jì)學(xué)角度的描述性分析相結(jié)合,形成了“數(shù)據(jù)分析”的一般概念,起初的數(shù)據(jù)分析著重于數(shù)據(jù)處理。數(shù)據(jù)分析是一門跨學(xué)科的科學(xué),對(duì)數(shù)據(jù)進(jìn)行定量和定性的檢驗(yàn),以便得出新的結(jié)論或見解,或者提取和證明關(guān)于信息的假設(shè),用于決策和行動(dòng)。數(shù)據(jù)分析變得更加面向商業(yè),擴(kuò)展到各種數(shù)據(jù)和特定領(lǐng)域的分析任務(wù),如商業(yè)分析、風(fēng)險(xiǎn)分析、行為分析、社會(huì)分析和網(wǎng)絡(luò)分析。特定領(lǐng)域的分析從根本上推動(dòng)了數(shù)據(jù)科學(xué)的創(chuàng)新和應(yīng)用,數(shù)據(jù)的特定分析和理論分析共同構(gòu)成了數(shù)據(jù)科學(xué)的基石。

          2. 什么是數(shù)據(jù)科學(xué)

          數(shù)據(jù)科學(xué)吸引了越來越多的領(lǐng)域和學(xué)科的興趣。因此,來自不同背景、不同社區(qū)的提議者提出了非常不同的觀點(diǎn)或焦點(diǎn)。舉個(gè)例子,認(rèn)為數(shù)據(jù)科學(xué)是新一代的統(tǒng)計(jì)學(xué),是幾個(gè)交叉學(xué)科的綜合,是一個(gè)新的知識(shí)體系。數(shù)據(jù)科學(xué)對(duì)于為數(shù)據(jù)行業(yè)提供能力和實(shí)踐,或者生成業(yè)務(wù)策略。統(tǒng)計(jì)學(xué)家們實(shí)際上創(chuàng)造了“數(shù)據(jù)科學(xué)”這個(gè)術(shù)語,并促進(jìn)將統(tǒng)計(jì)學(xué)升級(jí)為一個(gè)更廣泛的學(xué)科,具體包括

          • 1997年建議統(tǒng)計(jì)學(xué)應(yīng)更名為“數(shù)據(jù)科學(xué)”,統(tǒng)計(jì)學(xué)家應(yīng)被稱為“數(shù)據(jù)科學(xué)家”,其目的是將統(tǒng)計(jì)的重點(diǎn)從“數(shù)據(jù)收集、建模、分析、問題理解/解決、決策”轉(zhuǎn)移到“大型/復(fù)雜數(shù)據(jù)、實(shí)證-物理方法、知識(shí)的表示和利用”。

          • 在2001年建議,將統(tǒng)計(jì)學(xué)領(lǐng)域改為數(shù)據(jù)科學(xué),并通過尋求計(jì)算機(jī)技術(shù)和與計(jì)算機(jī)科學(xué)家合作,有必要“擺脫對(duì)數(shù)據(jù)模型(在統(tǒng)計(jì)學(xué)方面)的完全依賴,采用一套更加多樣化的工具”,如數(shù)據(jù)機(jī)制視為未知的算法建模。

          • 2015年,美國發(fā)表了一份關(guān)于統(tǒng)計(jì)學(xué)在數(shù)據(jù)科學(xué)中的作用,聲明統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)中發(fā)揮著核心作用。

          數(shù)據(jù)科學(xué)主要解釋為開放數(shù)據(jù)的再利用,包括我們生活中的所有數(shù)據(jù),并能夠創(chuàng)造數(shù)據(jù)產(chǎn)品。其中,數(shù)據(jù)規(guī)模是最重要的,大數(shù)據(jù)的核心挑戰(zhàn)是設(shè)計(jì)新的計(jì)算機(jī)體系結(jié)構(gòu)和算法,分析是大數(shù)據(jù)的核心問題,數(shù)據(jù)重用是很容易得到的成果,等等。

          但是,總的來說,“數(shù)據(jù)科學(xué)是數(shù)據(jù)的科學(xué)”或“數(shù)據(jù)科學(xué)是數(shù)據(jù)的研究”。從學(xué)科的角度來看,數(shù)據(jù)科學(xué)是一個(gè)新的跨學(xué)科領(lǐng)域,它綜合并建立在統(tǒng)計(jì)學(xué)、信息學(xué)、計(jì)算機(jī)、通信、管理和社會(huì)學(xué)的基礎(chǔ)上,研究數(shù)據(jù)及其環(huán)境,以便通過遵循從數(shù)據(jù)到知識(shí)再到智慧的思維和方法,將數(shù)據(jù)轉(zhuǎn)化為見解和決策。那么,以學(xué)科為基礎(chǔ)的數(shù)據(jù)科學(xué)公式可能是:?

          數(shù)據(jù)科學(xué) = 統(tǒng)計(jì)學(xué) + 信息學(xué) + 計(jì)算機(jī)科學(xué) + 通信 + 社會(huì)學(xué) + 管理科學(xué) | 數(shù)據(jù) + 環(huán)境 + 思考(其中”|”意思是”有條件的”)

          數(shù)據(jù)科學(xué)使我們能夠探索新的數(shù)據(jù)驅(qū)動(dòng)或數(shù)據(jù)支持的個(gè)性化、組織化、教育化、倫理化、社會(huì)化、文化、經(jīng)濟(jì)、政治、網(wǎng)絡(luò)物理形式、模式、范式、創(chuàng)新、方向和生態(tài)系統(tǒng),甚至是思維、戰(zhàn)略和政策。例如,在社會(huì)科學(xué)中,大規(guī)模數(shù)據(jù)很有可能使主觀性轉(zhuǎn)化為客觀自主性、效益和正義,一些指標(biāo)可能是領(lǐng)域驅(qū)動(dòng)的假設(shè)和專業(yè)人士無法預(yù)測(cè)的。

          數(shù)據(jù)科學(xué)的產(chǎn)出是數(shù)據(jù)產(chǎn)品,數(shù)據(jù)產(chǎn)品是可以從數(shù)據(jù)中交付的,或者是由數(shù)據(jù)啟用或驅(qū)動(dòng)的,可以是發(fā)現(xiàn)、預(yù)測(cè)、服務(wù)、推薦、決策、思維、模型、模式、范式、工具或系統(tǒng)。有價(jià)值的最終數(shù)據(jù)產(chǎn)品是知識(shí)、智慧、智慧和決策。隨著數(shù)據(jù)科學(xué)和工程技術(shù)的發(fā)展,新的數(shù)據(jù)產(chǎn)品可能會(huì)不斷涌現(xiàn)。正如基于互聯(lián)網(wǎng)的產(chǎn)品和人工智能系統(tǒng)的演變那樣,這種創(chuàng)造可能以遠(yuǎn)遠(yuǎn)超出想象和思考的速度。

          3. 當(dāng)前的數(shù)據(jù)科學(xué)時(shí)代

          數(shù)據(jù)傳播,量化,政府和研究機(jī)構(gòu)的倡議與治理,以及開放數(shù)據(jù)被認(rèn)為是當(dāng)前數(shù)據(jù)科學(xué)時(shí)代的關(guān)鍵驅(qū)動(dòng)力。

          3.1 數(shù)據(jù)處理與數(shù)據(jù)量化

          數(shù)據(jù)應(yīng)用和數(shù)據(jù)量化是無處不在的,除了從商業(yè)和業(yè)務(wù)信息系統(tǒng)獲得的常見數(shù)據(jù)外,日益流行和廣泛的數(shù)據(jù)傳輸和數(shù)據(jù)量化系統(tǒng)和服務(wù)加強(qiáng)了大數(shù)據(jù)應(yīng)用乃至數(shù)據(jù)泛濫。這些系統(tǒng)和服務(wù)包括但不限于可穿戴設(shè)備、物聯(lián)網(wǎng)、移動(dòng)和社交應(yīng)用。

          數(shù)據(jù)處理和數(shù)據(jù)量化發(fā)生在任何時(shí)間和任何地點(diǎn),由任何人以任何方式產(chǎn)生,相關(guān)因素包括:

          • 量化時(shí)間: 隨時(shí)量化,從工作到學(xué)習(xí),日常生活,放松,娛樂,社交;

          • 量化場(chǎng)所: 任何地方的量化,從生物系統(tǒng)到物理、行為、情感、認(rèn)知、網(wǎng)絡(luò)、環(huán)境、文化、經(jīng)濟(jì)、社會(huì)、政治系統(tǒng)和環(huán)境;

          • 量化個(gè)體: 任何人都可以量化,從自我到他人,連接的自我,外在的自我和世界,從個(gè)人到團(tuán)體,從組織到社會(huì);

          • 量化形式: 任何形式的量化,從觀察到驅(qū)動(dòng),從客觀到主觀,從明確到隱含,從定性到定量;

          • 量化方式: 任何來源的量化,包括信息系統(tǒng)、數(shù)字化、傳感器、監(jiān)視和跟蹤系統(tǒng)、物聯(lián)網(wǎng)、移動(dòng)設(shè)備和應(yīng)用程序、社會(huì)服務(wù)和網(wǎng)絡(luò)平臺(tái),以及可穿戴設(shè)備和量化自我設(shè)備和服務(wù);?

          • 量化速度: 任意速度的量化,從靜態(tài)到動(dòng)態(tài),從有限到無限,從遞增到指數(shù)級(jí)生成數(shù)據(jù)對(duì)象、集合、數(shù)據(jù)倉庫、數(shù)據(jù)湖等。

          3.2 數(shù)據(jù)開放

          數(shù)據(jù)科學(xué)時(shí)代與以前時(shí)代的一個(gè)關(guān)鍵區(qū)別是采用了開放模式,開放模式是在經(jīng)濟(jì)、社會(huì)、研究和生活的各個(gè)方面都可以實(shí)現(xiàn)自由、分布和協(xié)作模式。一般來說,許多國家和領(lǐng)域都公布了開放數(shù)據(jù)和數(shù)據(jù)共享項(xiàng)目,如:

          • 美國政府開放數(shù)據(jù)網(wǎng)站:https://www.data.gov/.

          • 英國的開放數(shù)據(jù)項(xiàng)目:http://data.gov.uk/.

          • 歐盟也開放了數(shù)據(jù)門戶和數(shù)據(jù)共享項(xiàng)目。

          此外,越來越多的學(xué)術(shù)期刊所采納了開放存取方案。在不同的社區(qū)中,人們也在努力創(chuàng)建可共享的數(shù)據(jù)庫,特別是用于科學(xué)和研究。開放存儲(chǔ)的例子有:

          • 全球氣候數(shù)據(jù):http://en.tutiempo.net/climate.

          • 全球恐怖主義數(shù)據(jù)庫:https://www.start.umd.edu/gtd/

          • 基因表達(dá)綜合數(shù)據(jù):http://www.ncbi.nlm.nih.gov/geo/.

          • 移動(dòng)數(shù)據(jù):https://console.developers.google.com/storage/browser/openmobiledata_public/

          • UCI 機(jī)器學(xué)習(xí)存儲(chǔ)庫:http://archive.ics.uci.edu/ml/.

          • 自然語言處理語言數(shù)據(jù)聯(lián)盟數(shù)據(jù):https://www.ldc.upenn.edu/about.

          • 文本檢索數(shù)據(jù): http://trec.nist.gov/data.html.

          • Kaggle 競賽數(shù)據(jù) :https://www.kaggle.com/competitions.

          • ......

          3.3 新數(shù)據(jù)經(jīng)濟(jì)與產(chǎn)業(yè)轉(zhuǎn)型

          數(shù)據(jù)科學(xué)的價(jià)值和潛力的認(rèn)識(shí)是由于新的數(shù)據(jù)經(jīng)濟(jì)和行業(yè)轉(zhuǎn)型的發(fā)展,反過,數(shù)據(jù)科學(xué)來對(duì)新數(shù)據(jù)經(jīng)濟(jì)的發(fā)展、產(chǎn)業(yè)轉(zhuǎn)型和生產(chǎn)力的提高又產(chǎn)生了重要影響和推動(dòng)作用。這一波數(shù)據(jù)經(jīng)濟(jì)升級(jí)和轉(zhuǎn)型的特征是人工智能技術(shù)和業(yè)務(wù)的革命,以及人工智能和人工智能驅(qū)動(dòng)的數(shù)據(jù)經(jīng)濟(jì)的互補(bǔ)性進(jìn)展,在很大程度上是由數(shù)據(jù)科學(xué)和分析推動(dòng)的。它們包括商業(yè)化、應(yīng)用基礎(chǔ)設(shè)施、工具、系統(tǒng)、服務(wù)、應(yīng)用和咨詢,用于管理、發(fā)現(xiàn)和利用深層數(shù)據(jù)智能。

          數(shù)據(jù)科學(xué)使所謂的“新經(jīng)濟(jì)”成為可能,谷歌,百度和阿里等大型企業(yè)就是證明。越來越多的組織認(rèn)識(shí)到數(shù)據(jù)作為戰(zhàn)略資產(chǎn)的價(jià)值,并投資于基礎(chǔ)設(shè)施、資源、人才和團(tuán)隊(duì)建設(shè),以支持企業(yè)創(chuàng)新,并且創(chuàng)造出與眾不同的東西來提升競爭力和生產(chǎn)力。

          傳統(tǒng)的以制造業(yè)為中心的核心企業(yè),也都推出了針對(duì)大數(shù)據(jù)、物聯(lián)網(wǎng)和/或云計(jì)算的相應(yīng)舉措,并正在實(shí)施基于數(shù)據(jù)產(chǎn)品的轉(zhuǎn)型。數(shù)據(jù)科學(xué)已成為企業(yè)生產(chǎn)力和競爭力提升的新引擎,包括銀行、資本市場(chǎng)公司、電信服務(wù)提供商和保險(xiǎn)公司在內(nèi)的核心業(yè)務(wù)在數(shù)據(jù)處理、量化、分析和使用數(shù)據(jù)方面處于領(lǐng)先地位。

          3.4 數(shù)據(jù)科學(xué)的社區(qū)形成

          一個(gè)新興領(lǐng)域的發(fā)展可以有效地用其專業(yè)團(tuán)體的形成寬度、深度和速度來衡量。

          第一個(gè)指標(biāo)是在這一領(lǐng)域出現(xiàn)了專門的出版物。已經(jīng)建立了幾種數(shù)據(jù)科學(xué)雜志,第二個(gè)指標(biāo)是建立一個(gè)數(shù)據(jù)科學(xué)社區(qū),通過專門促進(jìn)數(shù)據(jù)科學(xué)和分析的會(huì)議、研討會(huì)和論壇大大加強(qiáng)了這一社區(qū)。第三個(gè)指標(biāo)是建立的專業(yè)社區(qū)和組織的增長和發(fā)展。數(shù)據(jù)科學(xué)和分析社區(qū)正在以令人難以置信的速度增長。

          3.5 數(shù)據(jù)科學(xué)的學(xué)科發(fā)展

          研究人員和科學(xué)家在數(shù)據(jù)科學(xué)中發(fā)揮著推動(dòng)作用,從統(tǒng)計(jì)學(xué)界最初的推動(dòng),各學(xué)科都參與到數(shù)據(jù)科學(xué)的學(xué)科發(fā)展中來。這涉及到學(xué)科結(jié)構(gòu)、內(nèi)在的挑戰(zhàn)和方向、課程結(jié)構(gòu)和課程設(shè)計(jì),以及成為下一代數(shù)據(jù)科學(xué)家的能力。

          除了促進(jìn)統(tǒng)計(jì)學(xué)、數(shù)學(xué)、計(jì)算機(jī)和人工智能等核心學(xué)科的活動(dòng)之外,對(duì)特定領(lǐng)域數(shù)據(jù)科學(xué)的廣泛認(rèn)識(shí)似乎重復(fù)了計(jì)算機(jī)和計(jì)算機(jī)應(yīng)用的發(fā)展歷史。越來越多的學(xué)科和領(lǐng)域開始擁護(hù)數(shù)據(jù)科學(xué),這些領(lǐng)域在傳統(tǒng)上與數(shù)據(jù)科學(xué)毫不相干,比如法律、歷史,甚至護(hù)理學(xué)。它的核心驅(qū)動(dòng)力來自數(shù)據(jù)密集和數(shù)據(jù)豐富的領(lǐng)域,如天文學(xué),氣候變化,研究評(píng)估,媒體和娛樂 ,供應(yīng)鏈管理,以及網(wǎng)絡(luò)基礎(chǔ)設(shè)施等。數(shù)據(jù)科學(xué)的時(shí)代提供了重要的跨學(xué)科機(jī)會(huì) ,推動(dòng)了人工智能(AI)的發(fā)展,從起源于邏輯學(xué)、推理和計(jì)劃驅(qū)動(dòng)的機(jī)器智能向綜合集成化、無處不在的、支持多模式智能的復(fù)雜智能系統(tǒng)和服務(wù)的轉(zhuǎn)變。

          一個(gè)非常典型的跨學(xué)科、多學(xué)科和跨學(xué)科的進(jìn)化趨勢(shì)是,從信息學(xué)的角度對(duì)經(jīng)典學(xué)科中數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)和科學(xué)進(jìn)行調(diào)整和適應(yīng)。典型的示例包括信息學(xué)、行為信息學(xué)、生物信息學(xué)、生物統(tǒng)計(jì)學(xué)、腦信息學(xué)、醫(yī)學(xué)信息學(xué)信息學(xué)、醫(yī)學(xué)信息學(xué)和社會(huì)信息學(xué)等等。因此,在諸如生物醫(yī)學(xué)信息學(xué)、醫(yī)療保健信息學(xué)、甚至城市信息學(xué)等特定領(lǐng)域開設(shè)數(shù)據(jù)科學(xué)課程也就不足為奇了。大多數(shù)數(shù)據(jù)科學(xué)的課程側(cè)重于經(jīng)典科目,特別是統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、預(yù)測(cè)、商業(yè)智能、信息管理和數(shù)據(jù)庫管理。編程語言包括 R 和 Python,以及MapReduce 和 Hadoop 都是這些課程的重點(diǎn)。越來越多的課程是為了滿足特定領(lǐng)域的需求而創(chuàng)建的,例如將統(tǒng)計(jì)學(xué)、商業(yè)分析、社交網(wǎng)絡(luò)分析整合到 SCM 的預(yù)測(cè)分析中。

          4 數(shù)據(jù)科學(xué)的基石——數(shù)據(jù)分析

          數(shù)據(jù)科學(xué)的基石是數(shù)據(jù)分析,數(shù)據(jù)和分析形成了一個(gè)全面的地圖——

          • 數(shù)據(jù)從過去到現(xiàn)在和未來的整個(gè)生命周期;

          • 從顯性分析和理解到隱性分析和前瞻性預(yù)測(cè)再到干預(yù)分析;

          • 從數(shù)據(jù)探索到通過規(guī)范性分析和適當(dāng)?shù)闹R(shí)傳遞提供可操作的洞察力和決策。

          4.1 從數(shù)據(jù)洞察到數(shù)據(jù)決策的生命周期分析

          在不同的時(shí)間段和分析階段,從數(shù)據(jù)到洞察再到?jīng)Q策的轉(zhuǎn)換沿著整個(gè)生命周期的分析體現(xiàn)出來:

          • 過去的數(shù)據(jù): 歷史分析是探索數(shù)據(jù)和業(yè)務(wù)中的“發(fā)生過什么”,并深入了解“為什么發(fā)生了什么”,采用建模和實(shí)驗(yàn)設(shè)計(jì)等方式。這個(gè)階段的重點(diǎn)是”我們知道什么”,以便對(duì)所發(fā)生的事情進(jìn)行理解。

          • 目前的數(shù)據(jù): 這一階段的檢測(cè)主要集中在探索“發(fā)生了什么”,以便對(duì)“如何發(fā)生以及為什么會(huì)發(fā)生”產(chǎn)生深刻的見解。這一階段涉及”我們不知道的事情”,就數(shù)據(jù)和業(yè)務(wù)中提出的不同類別或模式發(fā)出警示,解決“什么是關(guān)鍵驅(qū)動(dòng)因素?”

          • 未來數(shù)據(jù): 預(yù)測(cè)分析的任務(wù)是未來“將會(huì)發(fā)生什么”,并通過估計(jì)未來事件的發(fā)生、分組和模式,深入了解“將會(huì)如何發(fā)生以及為什么發(fā)生”。這一階段的目標(biāo)是通過積極主動(dòng)地理解、預(yù)測(cè)以及早期預(yù)防,解決我們不知道的問題。

          • 可采取的行動(dòng)決策: 進(jìn)行規(guī)范性分析和可采取行動(dòng)的知識(shí)傳遞,以調(diào)查應(yīng)采取的最佳行動(dòng),解釋來自過去、現(xiàn)在或未來數(shù)據(jù)的發(fā)現(xiàn)。這樣就可以深入了解下一個(gè)最佳行動(dòng)是什么,并采取相應(yīng)的行動(dòng)和建議。這一階段的目的是通過提出最佳建議和可采取行動(dòng)的干預(yù)措施,解決如何最佳管理已查明的問題。

          4.2 從顯式分析到隱式分析

          對(duì)小型和簡單數(shù)據(jù)的數(shù)據(jù)分析以及假設(shè)檢驗(yàn)已經(jīng)轉(zhuǎn)移到對(duì)大型和復(fù)雜數(shù)據(jù)的分析,以便獲得無假設(shè)的知識(shí)和洞察力的發(fā)現(xiàn)。分析的重要性和創(chuàng)新性比以往任何時(shí)候得到了更好的認(rèn)可吧呢,什么是概念地圖和數(shù)據(jù)分析的演變呢?

          隨著分析技術(shù)的升級(jí),數(shù)據(jù)和分析的可見度越來越低,自動(dòng)化數(shù)據(jù)分析的水平也越來越低。隨著數(shù)據(jù)復(fù)雜性的增加,可用的功能就會(huì)減弱。分析的目標(biāo)是提高數(shù)據(jù)理解、生產(chǎn)和應(yīng)用的可見性、自動(dòng)化和能力水平。數(shù)據(jù)分析所涉及的數(shù)據(jù)復(fù)雜度和智能程度的提高,是從低級(jí)分析到高級(jí)分析的轉(zhuǎn)變。

          在執(zhí)行分析任務(wù)時(shí)可能涉及到許多典型的分析方法和組件,包括報(bào)告、統(tǒng)計(jì)分析、預(yù)警、預(yù)測(cè)、建模、優(yōu)化、規(guī)范分析和可操作的知識(shí)交付等等。分析方法之間可能有不同的焦點(diǎn)和聯(lián)系。例如,當(dāng)預(yù)測(cè)側(cè)重于對(duì)未來可能性的概率估計(jì)時(shí),它可能被用作一種預(yù)測(cè)方法,而預(yù)測(cè)又可能涉及估計(jì)結(jié)果的目標(biāo)。

          顯式分析專注于描述性分析,典型方法包括報(bào)告、統(tǒng)計(jì)分析、告警和預(yù)測(cè)。隱式分析的時(shí)代則側(cè)重于深度分析,分析方法是預(yù)測(cè)建模、優(yōu)化、規(guī)范性分析和可操作的知識(shí)交付。

          通常,在分析團(tuán)隊(duì)中采用來回迭代的方法,多個(gè)分析組件可能并行地參與,以探索多方面的觀察和理解。

          典型的要素和任務(wù)側(cè)重于明確的描述性分析,具有以下特點(diǎn):

          • 目標(biāo)是確定和描述數(shù)據(jù)和業(yè)務(wù)問題的分布、產(chǎn)生和趨勢(shì);

          • 問題的本質(zhì)知道應(yīng)該用基于假設(shè)的方法分析什么,以及分析的目的是什么;

          • 方法是領(lǐng)域驅(qū)動(dòng)的分析,從領(lǐng)域?qū)iT知識(shí)和專家那里獲得假設(shè); 數(shù)據(jù)分析檢驗(yàn)這些假設(shè),驗(yàn)證并解釋這些假設(shè);

          • 結(jié)果可以從數(shù)學(xué)和統(tǒng)計(jì)學(xué)以及計(jì)算中獲得。這些方法描述和呈現(xiàn)已經(jīng)發(fā)生的、正在發(fā)生的或者將要發(fā)生的事情。

          深度分析獲得了對(duì)事情發(fā)生、正在發(fā)生或?qū)⒁l(fā)生的原因和方式的深入理解。這些原因和方法不能通過描述性分析來解決,可以決定下一個(gè)最好或最壞的情況,并設(shè)計(jì)出最佳的干預(yù)策略。

          • 目標(biāo)是從可見和不可見的來源獲得對(duì)數(shù)據(jù)和業(yè)務(wù)的潛在問題;

          • 問題的本質(zhì)是不知道要分析什么,甚至不知道為什么要分析,也不知道能得到什么;

          • 方法從數(shù)據(jù)中學(xué)習(xí)有趣但隱藏的見解; 數(shù)據(jù)創(chuàng)造了看不見的視角,并解釋看不見的原因或指標(biāo),以補(bǔ)充領(lǐng)域驅(qū)動(dòng)的假設(shè)和觀察;

          • 結(jié)果是從數(shù)據(jù)、行為和環(huán)境中獲得對(duì)數(shù)據(jù)和業(yè)務(wù)中已經(jīng)發(fā)生、正在發(fā)生或?qū)⒁l(fā)生的事情的深入、內(nèi)在和全面的洞察力、知識(shí)和智慧。

          4.3 向規(guī)范性分析的轉(zhuǎn)變

          從數(shù)據(jù)分析到數(shù)據(jù)科學(xué)的范式轉(zhuǎn)變構(gòu)成了數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)。分析實(shí)踐經(jīng)歷了三個(gè)主要階段的重大范式轉(zhuǎn)變: 描述性分析和報(bào)告,預(yù)測(cè)和商業(yè)分析,以及規(guī)范性分析和決策制定。

          描述性分析和業(yè)務(wù)報(bào)告的主要工作是進(jìn)行明確的分析,主要通過使用現(xiàn)成的工具和內(nèi)置的算法來實(shí)現(xiàn)。由儀表板和自動(dòng)化流程生成的業(yè)務(wù)報(bào)告是將分析結(jié)果傳遞給管理層的手段。

          預(yù)測(cè)和商業(yè)分析主要致力于隱式分析,側(cè)重于預(yù)測(cè)建模和商業(yè)分析,更多是應(yīng)用預(yù)測(cè),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具的商業(yè)理解。模式、評(píng)分和調(diào)查結(jié)果通過儀表盤和分析報(bào)告呈現(xiàn)給管理層。

          規(guī)范性分析和決策制定是通過從復(fù)雜的數(shù)據(jù)、行為和環(huán)境中發(fā)現(xiàn)隱形的知識(shí)和可操作的見解,從而為商業(yè)決策提供最佳行動(dòng)建議。這是通過開發(fā)創(chuàng)新和有效的定制算法和工具來實(shí)現(xiàn)的,以深入和真正理解特定領(lǐng)域的數(shù)據(jù)和業(yè)務(wù)。因此,規(guī)范性的決策策略和業(yè)務(wù)規(guī)則被傳播給決策者,以便采取相應(yīng)的行動(dòng)。

          5 數(shù)據(jù)創(chuàng)新的挑戰(zhàn)

          特定領(lǐng)域的數(shù)據(jù)應(yīng)用所面臨的挑戰(zhàn)和問題分為五個(gè)主要領(lǐng)域:

          1. 數(shù)據(jù)和業(yè)務(wù)理解方面的挑戰(zhàn)是識(shí)別、規(guī)范化、表示和量化綜合的復(fù)雜性。問題是要了解它們以何種形式、在何種層次、在何種程度上存在,并了解各自的復(fù)雜性和智力如何相互作用和整合。

          2. 數(shù)學(xué)和統(tǒng)計(jì)基礎(chǔ)方面的挑戰(zhàn)是發(fā)現(xiàn)和探索現(xiàn)有的理論基礎(chǔ)為什么不夠充分或者缺失,以及在揭示、描述、表達(dá)和捕捉復(fù)雜性以及獲得可見解方面存在的問題。

          3. 數(shù)據(jù)分析和知識(shí)工程方面的挑戰(zhàn)在于發(fā)展特定領(lǐng)域的分析理論、工具和系統(tǒng),它們將代表、實(shí)現(xiàn)和管理相關(guān)的數(shù)據(jù)、知識(shí)和智能,并支持大數(shù)據(jù)存儲(chǔ)和管理、行為和事件處理。

          4. 社會(huì)問題的挑戰(zhàn)是確定、明確和尊重與特定領(lǐng)域的數(shù)據(jù)和業(yè)務(wù)理解以及數(shù)據(jù)科學(xué)有關(guān)的社會(huì)問題,包括處理和保護(hù)隱私、安全和信任,以及使基于社會(huì)問題的數(shù)據(jù)科學(xué)任務(wù)成為可能。

          5. 數(shù)據(jù)價(jià)值、影響和可用性方面的挑戰(zhàn)是從技術(shù)、業(yè)務(wù)、主觀和客觀的角度,識(shí)別、量化和評(píng)估特定領(lǐng)域數(shù)據(jù)的價(jià)值、影響、效用和可用性。

          6. 數(shù)據(jù)決策方面的挑戰(zhàn)是需要發(fā)展決策支持理論和系統(tǒng),以便能夠產(chǎn)生數(shù)據(jù)驅(qū)動(dòng)的決策,實(shí)現(xiàn)從洞察到?jīng)Q策的轉(zhuǎn)變以及數(shù)據(jù)驅(qū)動(dòng)的決策管理和治理。

          數(shù)據(jù)分析和知識(shí)工程方面的挑戰(zhàn)涉及許多尚未得到適當(dāng)解決的具體研究問題,例如:

          • 行為和事件的處理: 如何捕獲、存儲(chǔ)、建模、匹配、查詢、可視化和管理行為和事件及其屬性、行為序列以及個(gè)人和團(tuán)體在物理世界中的行為和事件的影響和演變。

          • 數(shù)據(jù)存儲(chǔ)和管理系統(tǒng): 如何設(shè)計(jì)有效和高效的存儲(chǔ)和管理系統(tǒng),以處理大容量、高速度和高速度的大數(shù)據(jù)多樣性,并支持實(shí)時(shí)、在線的動(dòng)態(tài)分析處理以及如何在基于互聯(lián)網(wǎng)(包括云)的環(huán)境中存儲(chǔ)這些數(shù)據(jù)。

          • 提高數(shù)據(jù)質(zhì)量: 如何處理現(xiàn)有的數(shù)據(jù)質(zhì)量問題,例如噪音、不確定性、缺失數(shù)值,以及由于數(shù)據(jù)的規(guī)模、范圍和復(fù)雜程度顯著增加而可能出現(xiàn)的數(shù)據(jù)傾斜。同時(shí),如何處理在大數(shù)據(jù)和基于互聯(lián)網(wǎng)的數(shù)據(jù)/業(yè)務(wù)環(huán)境中出現(xiàn)的新問題,如跨組織、跨媒體、跨文化和跨經(jīng)濟(jì)機(jī)制的數(shù)據(jù)科學(xué)問題。

          • 數(shù)據(jù)建模、學(xué)習(xí)和挖掘: 如何建模、學(xué)習(xí)、分析和挖掘具有綜合復(fù)雜性和智能的嵌入式數(shù)據(jù)。

          • 深度分析、學(xué)習(xí)和發(fā)現(xiàn): 如何發(fā)現(xiàn)隱藏的未知知識(shí)和智能,此外,如何將通用學(xué)習(xí)模型與特定領(lǐng)域的數(shù)據(jù)復(fù)雜性和智能驅(qū)動(dòng)的知識(shí)學(xué)習(xí)相結(jié)合,提出一種基于數(shù)據(jù)驅(qū)動(dòng)和模型的問題解決方法。

          • 模擬和實(shí)驗(yàn)設(shè)計(jì): 如何模擬數(shù)據(jù)和業(yè)務(wù)的復(fù)雜性和工作機(jī)制、過程、動(dòng)態(tài)性以及進(jìn)化,以及如何設(shè)計(jì)實(shí)驗(yàn)并探索某些數(shù)據(jù)驅(qū)動(dòng)的決策和行動(dòng)在企業(yè)中的后續(xù)影響。

          • 高性能處理和分析: 如何支持大規(guī)模、實(shí)時(shí)、在線、高頻率、基于互聯(lián)網(wǎng)(包括基于云計(jì)算)的跨組織數(shù)據(jù)處理和分析,同時(shí)平衡地方和全球資源的參與目標(biāo)。這需要新的批處理、陣列、內(nèi)存、磁盤存儲(chǔ)、處理技術(shù)和系統(tǒng),以及大規(guī)模并行處理、分布式/并行和高性能處理基礎(chǔ)設(shè)施,以及基于云的處理和存儲(chǔ)。它還需要大量復(fù)雜的矩陣運(yùn)算,混合的數(shù)據(jù)結(jié)構(gòu)和管理系統(tǒng),以及從數(shù)據(jù)到知識(shí)的管理。

          • 分析和計(jì)算結(jié)構(gòu)及基礎(chǔ)設(shè)施: 如何通過有效的分析和計(jì)算結(jié)構(gòu)以及基于內(nèi)存、磁盤、云和基于互聯(lián)網(wǎng)的資源和設(shè)施的基礎(chǔ)設(shè)施來促進(jìn)任務(wù)和進(jìn)程的預(yù)處理。

          • 網(wǎng)絡(luò)化、通信化和互操作化: 如何支持分布式數(shù)據(jù)科學(xué)團(tuán)隊(duì)中不同角色之間的網(wǎng)絡(luò)化和通信化,以及在解決問題的整個(gè)過程中的互操作化。這需要對(duì)項(xiàng)目、數(shù)據(jù)、目標(biāo)、任務(wù)、模型、結(jié)果、工作流、任務(wù)調(diào)度、版本控制、報(bào)告和治理進(jìn)行分布式協(xié)同管理。

          需要采用系統(tǒng)的跨學(xué)科方法來處理上述問題,可能涉及發(fā)展多個(gè)研究學(xué)科和領(lǐng)域的協(xié)同作用,它還可能涉及業(yè)務(wù)和社會(huì)方面,包括行業(yè)轉(zhuǎn)型、企業(yè)信息系統(tǒng)、商業(yè)智能、業(yè)務(wù)流程管理、項(xiàng)目管理、信息安全、信任和聲譽(yù)、隱私處理、業(yè)務(wù)影響模型、業(yè)務(wù)價(jià)值和效用評(píng)估。需要采取跨學(xué)科舉措,以彌合各學(xué)科之間的差距,以解決單一學(xué)科無法解決的問題中的關(guān)鍵復(fù)雜性。

          6. 數(shù)據(jù)經(jīng)濟(jì)的產(chǎn)業(yè)化和服務(wù)

          數(shù)據(jù)科學(xué)新一代經(jīng)濟(jì)的創(chuàng)新、競爭和生產(chǎn)力 ,通過創(chuàng)造數(shù)據(jù)產(chǎn)品、數(shù)據(jù)經(jīng)濟(jì)和數(shù)據(jù)服務(wù),新商業(yè)機(jī)會(huì)已經(jīng)成為可能。

          6.1 數(shù)據(jù)行業(yè)

          數(shù)據(jù)產(chǎn)業(yè)正在成型,主要?jiǎng)恿碜粤鶄€(gè)核心領(lǐng)域: 數(shù)據(jù)/分析設(shè)計(jì)、數(shù)據(jù)/分析內(nèi)容、數(shù)據(jù)/分析軟件、數(shù)據(jù)/分析基礎(chǔ)設(shè)施、數(shù)據(jù)/分析服務(wù)和數(shù)據(jù)/分析教育。

          • 數(shù)據(jù)/分析設(shè)計(jì)包括發(fā)明設(shè)計(jì)和生產(chǎn)數(shù)字和數(shù)據(jù)產(chǎn)品、服務(wù)、業(yè)務(wù)模式、業(yè)務(wù)模式、通信模式、定價(jià)模式、經(jīng)濟(jì)形式、增值數(shù)據(jù)產(chǎn)品/服務(wù)、決策支持系統(tǒng)、自動(dòng)化系統(tǒng)和工具的新方法和新途徑;

          • 數(shù)據(jù)/分析內(nèi)容包括通過在線、移動(dòng)、社交媒體平臺(tái)等渠道獲取、制作、維護(hù)、發(fā)布、發(fā)布、推薦和展示以數(shù)據(jù)為中心的內(nèi)容;

          • 數(shù)據(jù)/分析軟件是指創(chuàng)建軟件、平臺(tái)、架構(gòu)、服務(wù)、工具、系統(tǒng)和應(yīng)用程序,以獲取、組織、管理、分析、可視化、使用和展示數(shù)據(jù),用于特定的業(yè)務(wù)和科學(xué)目的,并提供質(zhì)量保證以支持這些方面;

          • 數(shù)據(jù)/分析基礎(chǔ)設(shè)施涉及為數(shù)據(jù)存儲(chǔ)、備份、服務(wù)器收入、數(shù)據(jù)中心、數(shù)據(jù)管理和存儲(chǔ)、云、分布式和并行計(jì)算基礎(chǔ)設(shè)施、框架內(nèi)高性能計(jì)算、網(wǎng)絡(luò)、通信和安全創(chuàng)建基礎(chǔ)設(shè)施和設(shè)備;

          • 數(shù)據(jù)/分析服務(wù)的重點(diǎn)是提供戰(zhàn)略和戰(zhàn)術(shù)思維領(lǐng)導(dǎo)、技術(shù)和實(shí)際咨詢服務(wù)、以問題為導(dǎo)向的解決方案和應(yīng)用、外包,以及數(shù)據(jù)審計(jì)和質(zhì)量提高、數(shù)據(jù)收集、提取、轉(zhuǎn)換和裝載、推薦、數(shù)據(jù)接收/基礎(chǔ)設(shè)施托管、數(shù)據(jù)分析等方面的具體服務(wù);

          • 數(shù)據(jù)/分析教育有助于建立機(jī)構(gòu)能力和培訓(xùn),并提供在線/離線/以學(xué)位為基礎(chǔ)的課程,以填補(bǔ)合格數(shù)據(jù)專業(yè)人員供應(yīng)方面的空白,從而有助于建立和加強(qiáng)這一學(xué)科的社區(qū)。

          新的數(shù)據(jù)業(yè)務(wù)可能這些方面增長: 數(shù)據(jù)儲(chǔ)存及管理、理解、處理、優(yōu)化、增值機(jī)會(huì)、運(yùn)輸及通訊、服務(wù)及決策支援。特別是數(shù)據(jù)密集型領(lǐng)域和部門,如電信、政府、金融、銀行、資本市場(chǎng)、生活方式和教育。對(duì)于制造業(yè)和生活業(yè)務(wù),將更好收集,管理和使用數(shù)據(jù)。

          數(shù)據(jù)行業(yè)可能會(huì)創(chuàng)造新的商業(yè)模式、產(chǎn)品、服務(wù)、運(yùn)營模式和勞動(dòng)力模式,數(shù)據(jù)經(jīng)濟(jì)將進(jìn)一步改變我們的生活、工作、學(xué)習(xí)和娛樂方式。

          6.2 數(shù)據(jù)服務(wù)

          數(shù)據(jù)服務(wù)是整個(gè)數(shù)據(jù)和分析領(lǐng)域的一部分,正在改變我們生活的方方面面——

          • 數(shù)據(jù)服務(wù)是經(jīng)濟(jì)的核心業(yè)務(wù),而不是輔助業(yè)務(wù)。

          • 數(shù)據(jù)驅(qū)動(dòng)的決策成為復(fù)雜決策和戰(zhàn)略規(guī)劃的大型組織的核心功能,而不是附屬設(shè)施。

          • 數(shù)據(jù)服務(wù)包括網(wǎng)上、移動(dòng)和社交服務(wù),并已嵌入我們的活動(dòng)。

          • 數(shù)據(jù)業(yè)務(wù)是全球性的,全天候不間斷,可在任何時(shí)間任何地點(diǎn)按需求或以供應(yīng)驅(qū)動(dòng)模式提供服務(wù)。

          • 提供數(shù)據(jù)的服務(wù)不需要傳統(tǒng)的生產(chǎn)元素,例如工廠。

          • 數(shù)據(jù)驅(qū)動(dòng)的服務(wù)提供實(shí)時(shí)公共服務(wù)、高性能處理、分析和決策。

          • 數(shù)據(jù)驅(qū)動(dòng)的服務(wù)支持全生命周期分析,從預(yù)測(cè)、檢測(cè)到預(yù)防風(fēng)險(xiǎn)的描述性、預(yù)測(cè)性和規(guī)范性分析,再到創(chuàng)新和優(yōu)化。

          • 數(shù)據(jù)服務(wù)能夠?qū)崿F(xiàn)跨媒體、跨來源和跨組織的創(chuàng)新和實(shí)踐。

          • 數(shù)據(jù)服務(wù)通過提供可采取行動(dòng)的知識(shí)/見解,可大幅節(jié)省費(fèi)用和提高效率。

          下面列舉了一些通過分析為核心業(yè)務(wù)和新經(jīng)濟(jì)提供的典型數(shù)據(jù)服務(wù)——

          • 信用評(píng)分: 確定申請(qǐng)貸款的客戶的信用可靠性。

          • 欺詐偵查: 識(shí)別欺詐交易和可疑行為。

          • 醫(yī)療保健: 檢測(cè)服務(wù)度、服務(wù)不足、欺詐和流行病等事件;

          • 保險(xiǎn): 發(fā)現(xiàn)欺詐性索賠并評(píng)估風(fēng)險(xiǎn)。

          • 制造過程分析: 找出制造中問題的原因并優(yōu)化過程。

          • 營銷和銷售: 確定潛在客戶并確定活動(dòng)的有效性。

          • 投資組合交易: 通過最大化收益和最小化風(fēng)險(xiǎn)來優(yōu)化金融工具組合。

          • 監(jiān)控: 通過多傳感器和遙感來探測(cè)入侵、對(duì)象和人員聯(lián)系。

          • 了解客戶行為: 為客戶流失、親和力、傾向和干預(yù)行為的次佳行動(dòng)建立模型。

          • 網(wǎng)絡(luò)分析: 根據(jù)用戶的喜好建立數(shù)據(jù)模型,設(shè)計(jì)并提供個(gè)性化和有針對(duì)性的服務(wù)。

          數(shù)據(jù)行業(yè)的一個(gè)主要挑戰(zhàn)是為跨國公司和整個(gè)政府等組織提供全球或基于互聯(lián)網(wǎng)的數(shù)據(jù)服務(wù),數(shù)據(jù)驅(qū)動(dòng)的行業(yè)和服務(wù)正在形成商業(yè)數(shù)據(jù)科學(xué)的新趨勢(shì)。

          7 數(shù)據(jù)科學(xué)中的角色職責(zé)和相關(guān)能力

          越來越多的行業(yè)和政府組織認(rèn)識(shí)到數(shù)據(jù)對(duì)決策的價(jià)值,并設(shè)立了具體的數(shù)據(jù)科學(xué)家角色,以支持?jǐn)?shù)據(jù)科學(xué)和工程,例如,首席數(shù)據(jù)官(CDO)、首席分析師、數(shù)據(jù)建模師以及數(shù)據(jù)工程師和業(yè)務(wù)分析師等。

          數(shù)據(jù)科學(xué)家的作用在多年前就已經(jīng)得到承認(rèn),在就業(yè)市場(chǎng)上,數(shù)據(jù)科學(xué)家受到大多數(shù)企業(yè)的歡迎。數(shù)據(jù)科學(xué)家的薪水比其他與數(shù)據(jù)相關(guān)的工作要高得多,那么,數(shù)據(jù)科學(xué)家的角色和職責(zé)是什么呢?數(shù)據(jù)科學(xué)家有時(shí)被定義為“來自信息或計(jì)算機(jī)科學(xué)背景,但理解一個(gè)領(lǐng)域,并可能為該領(lǐng)域做數(shù)據(jù)決策,關(guān)注數(shù)據(jù)生命周期的所有部分,并推進(jìn)數(shù)據(jù)科學(xué)的科學(xué)家”。

          在商業(yè)領(lǐng)域,跨國公司、社交媒體和在線社區(qū)以及信息提供商,都對(duì)數(shù)據(jù)科學(xué)家的角色和責(zé)任,以及如何成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家表現(xiàn)出了極大的興趣。越來越多的學(xué)術(shù)和研究機(jī)構(gòu)正在努力確定下一代數(shù)據(jù)科學(xué)家的認(rèn)證和資格認(rèn)可。這反映在一般和特定領(lǐng)域的數(shù)據(jù)科學(xué)碩士和博士資格課程中,如數(shù)據(jù)分析學(xué)博士和SCM預(yù)測(cè)分析碩士學(xué)位等。

          典型的職責(zé)可能包括:

          • 了解商業(yè)問題范疇、與商業(yè)專家和決策者交談,以了解商業(yè)目標(biāo)、要求和偏好、組織面臨的問題和制約因素; 了解組織的成熟度; 確定、說明和界定問題、邊界和環(huán)境,以及挑戰(zhàn); 編制商業(yè)報(bào)告。

          • 確定和具體說明諸如隱私和安全等社會(huì)和道德問題。

          • 了解數(shù)據(jù)的特點(diǎn)和復(fù)雜性; 查明數(shù)據(jù)的問題和缺陷; 編制數(shù)據(jù)理解報(bào)告; 通過制定各自的項(xiàng)目計(jì)劃,確定分析目標(biāo)和里程碑,制定議程和管理計(jì)劃。

          • 建立與分析目標(biāo)相對(duì)應(yīng)的工程和分析流程,將業(yè)務(wù)和數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為洞察力,并通過制定發(fā)現(xiàn)、升級(jí)和部署相關(guān)數(shù)據(jù)情報(bào)的技術(shù)計(jì)劃,將洞察力轉(zhuǎn)化為業(yè)務(wù)決策。

          • 將業(yè)務(wù)問題轉(zhuǎn)化為分析任務(wù),并通過開發(fā)相應(yīng)的技術(shù)、模型、方法、算法、工具和系統(tǒng)、數(shù)據(jù)科學(xué)的實(shí)驗(yàn)設(shè)計(jì)和評(píng)價(jià)、產(chǎn)生更好的實(shí)踐經(jīng)驗(yàn)、進(jìn)行描述性、預(yù)測(cè)性和規(guī)范性分析、進(jìn)行調(diào)查研究以及支持可視化和演示,進(jìn)行高級(jí)分析。

          • 基于對(duì)數(shù)據(jù)特征和復(fù)雜性的理解,提取、分析、構(gòu)造、挖掘和選擇鑒別特征,不斷優(yōu)化和創(chuàng)新新變量,以實(shí)現(xiàn)最佳問題表示和建模,必要時(shí)進(jìn)行數(shù)據(jù)質(zhì)量提高。

          • 結(jié)合分析、統(tǒng)計(jì)、算法、工程和技術(shù)技能,通過涉及上下文信息挖掘相關(guān)數(shù)據(jù); 發(fā)明新穎有效的模型,不斷改進(jìn)建模技術(shù),以優(yōu)化和提高模型性能,并尋求實(shí)現(xiàn)最佳實(shí)踐。

          • 維護(hù)、管理和完善項(xiàng)目過程、可交付性、評(píng)估、風(fēng)險(xiǎn)和報(bào)告,以建立積極的生命周期管理。

          • 開發(fā)相應(yīng)的服務(wù)、解決方案和產(chǎn)品或模塊,以便在用戶指定的編程語言、框架和基礎(chǔ)設(shè)施或開放源碼工具和框架之上提供系統(tǒng)服務(wù)。

          • 維護(hù)數(shù)據(jù)和成果的隱私、安全和準(zhǔn)確性。

          • 在整個(gè)生命周期中,并從復(fù)雜的數(shù)據(jù)或算法中得出簡單的結(jié)論; 向客戶提供情景分析和對(duì)需要改進(jìn)的領(lǐng)域的深入洞察; 在最終部署中轉(zhuǎn)化為業(yè)務(wù)改進(jìn)行動(dòng)。

          • 提出執(zhí)行摘要,其中包括準(zhǔn)確和基于證據(jù)的建議和風(fēng)險(xiǎn)管理戰(zhàn)略,特別是針對(duì)決策者和企業(yè)所有者的建議和戰(zhàn)略。

          為了滿足前面的要求,數(shù)據(jù)科學(xué)家除了分析技能之外,還需要具備一定的能力,包括:

          • 分析、創(chuàng)造、批判和好奇的思考、心態(tài)和思考能力。

          • 自上而下和自下而上解決問題的復(fù)雜方法和知識(shí)。

          • 計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、分析學(xué)、數(shù)據(jù)科學(xué)、信息學(xué)、工程學(xué)、物理學(xué)、運(yùn)籌學(xué)、模式識(shí)別、人工智能、可視化、信息檢索或相關(guān)領(lǐng)域的碩士或博士。

          • 深入了解常用的統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法和模型。

          • 能夠?qū)崿F(xiàn)、維護(hù)和檢驗(yàn)大數(shù)據(jù)基礎(chǔ)設(shè)施,如云計(jì)算、高性能計(jì)算基礎(chǔ)設(shè)施、分布式處理、流處理和數(shù)據(jù)庫。

          • 具有人機(jī)交互、可視化和知識(shí)表示與管理的知識(shí);

          • 軟件工程背景(包括系統(tǒng)設(shè)計(jì)和分析) 和質(zhì)量保證。

          • 有在網(wǎng)絡(luò)和分布式環(huán)境中處理大型數(shù)據(jù)集、混合數(shù)據(jù)類型和數(shù)據(jù)源的經(jīng)驗(yàn)。

          • 有數(shù)據(jù)提取和處理、特征理解和關(guān)系分析的經(jīng)驗(yàn)。

          • 有科學(xué)、技術(shù)、社會(huì)和生命科學(xué)等多學(xué)科和跨學(xué)科的研究方法。

          • 在 Linux、云或分布式環(huán)境中具有使用分析腳本、數(shù)據(jù)結(jié)構(gòu)、編程語言和開發(fā)平臺(tái)的豐富經(jīng)驗(yàn)。

          • 評(píng)價(jià)分析結(jié)果的技術(shù)和商業(yè)價(jià)值的理論背景及領(lǐng)域知識(shí)。

          • 書面和口頭溝通能力,為不同的客戶編寫和編輯分析材料和報(bào)告的能力,將分析概念和結(jié)果轉(zhuǎn)化為有利于業(yè)務(wù)的解釋能力; 向非技術(shù)客戶傳達(dá)見解的能力,以及在數(shù)據(jù)驅(qū)動(dòng)的決策方面的經(jīng)驗(yàn)。


          8. 數(shù)據(jù)科學(xué)的未來

          數(shù)據(jù)科學(xué)在未來是什么樣子的爭論仍在繼續(xù),一般的共識(shí)是,數(shù)據(jù)科學(xué)作為一門獨(dú)立的科學(xué),將建立其系統(tǒng)的科學(xué)基礎(chǔ)、學(xué)科結(jié)構(gòu)、理論體系、技術(shù)家族和工程工具集。

          基于對(duì)數(shù)據(jù)科學(xué)的內(nèi)在挑戰(zhàn)和理解 ,數(shù)據(jù)科學(xué)的發(fā)展可能:

          • 設(shè)計(jì)和開發(fā)能夠自主模仿人腦工作機(jī)制的數(shù)據(jù)大腦,以識(shí)別、理解、分析和學(xué)習(xí)數(shù)據(jù)和環(huán)境,推斷和推理知識(shí)和洞察力,并相應(yīng)地決定行動(dòng)。

          • 深化對(duì)數(shù)據(jù)不可見性的理解,特別是了解復(fù)雜性和多模態(tài)智能。

          • 通過綜合跨學(xué)科研究,拓寬數(shù)據(jù)科學(xué)的概念、理論和技術(shù)體系。這將解決現(xiàn)有的問題,如統(tǒng)計(jì)假設(shè)的差異,并將發(fā)現(xiàn)和提出目前廣泛的科學(xué)或具體領(lǐng)域看不到的問題。

          • 發(fā)明新的數(shù)據(jù)表示能力,包括設(shè)計(jì)、結(jié)構(gòu)、模式和算法,使復(fù)雜數(shù)據(jù)中不可見的數(shù)據(jù)復(fù)雜性和未知特征更加顯而易見,更容易理解或探索。

          • 設(shè)計(jì)新的存儲(chǔ)、訪問和管理機(jī)制,包括內(nèi)存、磁盤和基于云的機(jī)制,以便能夠獲取、存儲(chǔ)、訪問、采樣和管理現(xiàn)有系統(tǒng)的物理世界中更豐富的特性和屬性,并支持可擴(kuò)展、靈活、可解釋和個(gè)性化的實(shí)時(shí)數(shù)據(jù)操作和分析。

          • 建立新的分析和學(xué)習(xí)能力,包括數(shù)學(xué)、統(tǒng)計(jì)和分析理論、算法和模型,以揭示未知空間中的未知知識(shí)。

          • 建立新的智能系統(tǒng)和服務(wù),包括企業(yè)和基于互聯(lián)網(wǎng)的協(xié)作平臺(tái)和服務(wù),以支持在未知空間對(duì)無形和未知領(lǐng)域的數(shù)據(jù)協(xié)作和集體探索。

          • 培訓(xùn)下一代數(shù)據(jù)科學(xué)家和數(shù)據(jù)專業(yè)人員,包括數(shù)據(jù)讀寫能力、思維能力、能力、意識(shí)、好奇心、溝通能力和認(rèn)知能力。

          • 在解決復(fù)雜數(shù)據(jù)科學(xué)問題時(shí),確??珙I(lǐng)域和跨學(xué)科的合作、協(xié)作和聯(lián)盟。

          • 發(fā)現(xiàn)和發(fā)明當(dāng)前認(rèn)識(shí)和創(chuàng)新未知的數(shù)據(jù)能力,例如新的數(shù)據(jù)經(jīng)濟(jì)、移動(dòng)應(yīng)用、社會(huì)應(yīng)用和數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)。

          9.小結(jié)

          數(shù)據(jù)科學(xué)已經(jīng)越來越多地被認(rèn)為是下一代創(chuàng)新經(jīng)濟(jì)的主要驅(qū)動(dòng)力,該領(lǐng)域?qū)ι鐣?huì)的健康發(fā)展非常重要。一個(gè)高度發(fā)展的數(shù)據(jù)世界無縫地連接到我們的生活、工作、學(xué)習(xí)、經(jīng)濟(jì)和娛樂中。政府、工業(yè)界和學(xué)術(shù)界正在越來越多地作出新的努力,探討如何將數(shù)據(jù)轉(zhuǎn)換為決策數(shù)據(jù),并促進(jìn)數(shù)據(jù)科學(xué)的研究和發(fā)展。下一代數(shù)據(jù)科學(xué)在很大程度上依賴于將在優(yōu)先數(shù)據(jù)的戰(zhàn)略規(guī)劃,“為什么需要數(shù)據(jù)科學(xué)”將是取而代之的是一系列科學(xué)理論和工具,以解決我們面臨的大數(shù)據(jù)、科學(xué)、商業(yè)、社會(huì)和經(jīng)濟(jì)的重大問題。


          【參考資料與關(guān)聯(lián)閱讀】

          瀏覽 51
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩久久不卡 | 三级黄色小电影网站 | 国产日韩在线一级 | 国产乱伦视频网站 | 一级片免费不卡 |