什么是數(shù)據(jù)湖?有什么用?終于有人講明白了……

導(dǎo)讀:數(shù)據(jù)湖概念的誕生,源自企業(yè)面臨的一些挑戰(zhàn),如數(shù)據(jù)應(yīng)該以何種方式處理和存儲(chǔ)。最開(kāi)始,企業(yè)對(duì)種類龐雜的應(yīng)用程序的管理都經(jīng)歷了一個(gè)比較自然的演化周期。
最開(kāi)始的時(shí)候,每個(gè)應(yīng)用程序會(huì)產(chǎn)生、存儲(chǔ)大量數(shù)據(jù),而這些數(shù)據(jù)并不能被其他應(yīng)用程序使用,這種狀況導(dǎo)致數(shù)據(jù)孤島的產(chǎn)生。隨后數(shù)據(jù)集市應(yīng)運(yùn)而生,應(yīng)用程序產(chǎn)生的數(shù)據(jù)存儲(chǔ)在一個(gè)集中式的數(shù)據(jù)倉(cāng)庫(kù)中,可根據(jù)需要導(dǎo)出相關(guān)數(shù)據(jù)傳輸給企業(yè)內(nèi)需要該數(shù)據(jù)的部門(mén)或個(gè)人。
然而數(shù)據(jù)集市只解決了部分問(wèn)題。剩余問(wèn)題,包括數(shù)據(jù)管理、數(shù)據(jù)所有權(quán)與訪問(wèn)控制等都亟須解決,因?yàn)槠髽I(yè)尋求獲得更高的使用有效數(shù)據(jù)的能力。
為了解決前面提及的各種問(wèn)題,企業(yè)有很強(qiáng)烈的訴求搭建自己的數(shù)據(jù)湖,數(shù)據(jù)湖不但能存儲(chǔ)傳統(tǒng)類型數(shù)據(jù),也能存儲(chǔ)任意其他類型數(shù)據(jù),并且能在它們之上做進(jìn)一步的處理與分析,產(chǎn)生最終輸出供各類程序消費(fèi)。
在本文中,將介紹數(shù)據(jù)湖的一些主要方面,幫助讀者理解為什么它對(duì)企業(yè)非常重要。
作者:湯姆斯·約翰 潘卡·米斯拉
來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)

數(shù)據(jù)湖與企業(yè)的關(guān)系

一個(gè)實(shí)體在企業(yè)中可能有多種表示形式,因此可能不存在某個(gè)完備的模型來(lái)統(tǒng)一表示實(shí)體。 不同的企業(yè)應(yīng)用程序可能會(huì)基于特定的商業(yè)目標(biāo)來(lái)處理實(shí)體,這意味著處理實(shí)體時(shí)會(huì)采用或排斥某些企業(yè)流程。 不同應(yīng)用程序可能會(huì)對(duì)每個(gè)實(shí)體采用不同的訪問(wèn)模式及存儲(chǔ)結(jié)構(gòu)。

數(shù)據(jù)湖的優(yōu)點(diǎn)
實(shí)現(xiàn)數(shù)據(jù)治理(data governance)與數(shù)據(jù)世系。 通過(guò)應(yīng)用機(jī)器學(xué)習(xí)與人工智能技術(shù)實(shí)現(xiàn)商業(yè)智能。 預(yù)測(cè)分析,如領(lǐng)域特定的推薦引擎。 信息追蹤與一致性保障。 根據(jù)對(duì)歷史的分析生成新的數(shù)據(jù)維度。 有一個(gè)集中式的能存儲(chǔ)所有企業(yè)數(shù)據(jù)的數(shù)據(jù)中心,有利于實(shí)現(xiàn)一個(gè)針對(duì)數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù)。 幫助組織或企業(yè)做出更多靈活的關(guān)于企業(yè)增長(zhǎng)的決策。


數(shù)據(jù)世系被定義為數(shù)據(jù)的生命周期,包括數(shù)據(jù)的起源以及數(shù)據(jù)是如何隨時(shí)間移動(dòng)的。它描述了數(shù)據(jù)在各種處理過(guò)程中發(fā)生了哪些變化,有助于提供數(shù)據(jù)分析流水線的可見(jiàn)性,并簡(jiǎn)化了錯(cuò)誤溯源。 可追溯性是通過(guò)標(biāo)識(shí)記錄來(lái)驗(yàn)證數(shù)據(jù)項(xiàng)的歷史、位置或應(yīng)用的能力。 ——維基百科

只有當(dāng)這些組織重新開(kāi)始構(gòu)建其信息系統(tǒng)時(shí),這種方法才可行。 這種方法解決不了與現(xiàn)存系統(tǒng)相關(guān)的問(wèn)題。 即使組織決定用這種方法構(gòu)建數(shù)據(jù)湖,也缺乏明確的責(zé)任和關(guān)注點(diǎn)隔離(responsibility and separation of concerns)。 這樣的系統(tǒng)通常嘗試一次性完成所有的工作,但是最終會(huì)隨著數(shù)據(jù)事務(wù)、分析和處理需求的增加而分崩離析。

延伸閱讀《企業(yè)數(shù)據(jù)湖》
點(diǎn)擊上圖了解及購(gòu)買
轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData

干貨直達(dá)??

