<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          什么是數(shù)據(jù)湖?有什么用?終于有人講明白了……

          共 4467字,需瀏覽 9分鐘

           ·

          2021-02-18 21:25


          導(dǎo)讀:數(shù)據(jù)湖概念的誕生,源自企業(yè)面臨的一些挑戰(zhàn),如數(shù)據(jù)應(yīng)該以何種方式處理和存儲(chǔ)。最開(kāi)始,企業(yè)對(duì)種類龐雜的應(yīng)用程序的管理都經(jīng)歷了一個(gè)比較自然的演化周期。


          最開(kāi)始的時(shí)候,每個(gè)應(yīng)用程序會(huì)產(chǎn)生、存儲(chǔ)大量數(shù)據(jù),而這些數(shù)據(jù)并不能被其他應(yīng)用程序使用,這種狀況導(dǎo)致數(shù)據(jù)孤島的產(chǎn)生。隨后數(shù)據(jù)集市應(yīng)運(yùn)而生,應(yīng)用程序產(chǎn)生的數(shù)據(jù)存儲(chǔ)在一個(gè)集中式的數(shù)據(jù)倉(cāng)庫(kù)中,可根據(jù)需要導(dǎo)出相關(guān)數(shù)據(jù)傳輸給企業(yè)內(nèi)需要該數(shù)據(jù)的部門(mén)或個(gè)人。


          然而數(shù)據(jù)集市只解決了部分問(wèn)題。剩余問(wèn)題,包括數(shù)據(jù)管理、數(shù)據(jù)所有權(quán)與訪問(wèn)控制等都亟須解決,因?yàn)槠髽I(yè)尋求獲得更高的使用有效數(shù)據(jù)的能力。


          為了解決前面提及的各種問(wèn)題,企業(yè)有很強(qiáng)烈的訴求搭建自己的數(shù)據(jù)湖,數(shù)據(jù)湖不但能存儲(chǔ)傳統(tǒng)類型數(shù)據(jù),也能存儲(chǔ)任意其他類型數(shù)據(jù),并且能在它們之上做進(jìn)一步的處理與分析,產(chǎn)生最終輸出供各類程序消費(fèi)。


          在本文中,將介紹數(shù)據(jù)湖的一些主要方面,幫助讀者理解為什么它對(duì)企業(yè)非常重要。


          作者:湯姆斯·約翰 潘卡·米斯拉

          來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)





          01 什么是數(shù)據(jù)湖

          如果需要給數(shù)據(jù)湖下一個(gè)定義,可以定義為這樣:數(shù)據(jù)湖是一個(gè)存儲(chǔ)企業(yè)的各種各樣原始數(shù)據(jù)的大型倉(cāng)庫(kù),其中的數(shù)據(jù)可供存取、處理、分析及傳輸。

          數(shù)據(jù)湖從企業(yè)的多個(gè)數(shù)據(jù)源獲取原始數(shù)據(jù),并且針對(duì)不同的目的,同一份原始數(shù)據(jù)還可能有多種滿足特定內(nèi)部模型格式的數(shù)據(jù)副本。因此,數(shù)據(jù)湖中被處理的數(shù)據(jù)可能是任意類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù)。

          企業(yè)對(duì)數(shù)據(jù)湖寄予厚望,希望它能幫助用戶快速獲取有用信息,并能將這些信息用于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法,以獲得與企業(yè)運(yùn)行相關(guān)的洞察力。

          • 數(shù)據(jù)湖與企業(yè)的關(guān)系

          數(shù)據(jù)湖能給企業(yè)帶來(lái)多種能力,例如,能實(shí)現(xiàn)數(shù)據(jù)的集中式管理,在此之上,企業(yè)能挖掘出很多之前所不具備的能力。

          另外,數(shù)據(jù)湖結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營(yíng)模型,也能為企業(yè)提供其他能力,如預(yù)測(cè)分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長(zhǎng)。

          企業(yè)數(shù)據(jù)中隱藏著多種能力,然而,在重要數(shù)據(jù)能夠被具備商業(yè)數(shù)據(jù)洞察力的人使用之前,人們無(wú)法利用它們來(lái)改善企業(yè)的商業(yè)表現(xiàn)。



          02 數(shù)據(jù)湖如何幫助企業(yè)

          長(zhǎng)期以來(lái),企業(yè)一直試圖找到一個(gè)統(tǒng)一的模型來(lái)表示企業(yè)中所有實(shí)體。這個(gè)任務(wù)有極大的挑戰(zhàn)性,原因有很多,下面列舉了其中的一部分:

          • 一個(gè)實(shí)體在企業(yè)中可能有多種表示形式,因此可能不存在某個(gè)完備的模型來(lái)統(tǒng)一表示實(shí)體。
          • 不同的企業(yè)應(yīng)用程序可能會(huì)基于特定的商業(yè)目標(biāo)來(lái)處理實(shí)體,這意味著處理實(shí)體時(shí)會(huì)采用或排斥某些企業(yè)流程。
          • 不同應(yīng)用程序可能會(huì)對(duì)每個(gè)實(shí)體采用不同的訪問(wèn)模式及存儲(chǔ)結(jié)構(gòu)。

          這些問(wèn)題已困擾企業(yè)多年,并阻礙了業(yè)務(wù)處理、服務(wù)定義及術(shù)語(yǔ)命名等事務(wù)的標(biāo)準(zhǔn)化。

          從數(shù)據(jù)湖的角度來(lái)看,我們正在以另外一種方式來(lái)看待這個(gè)問(wèn)題。使用數(shù)據(jù)湖,隱式實(shí)現(xiàn)了一個(gè)較好的統(tǒng)一數(shù)據(jù)模型,而不用擔(dān)心對(duì)業(yè)務(wù)程序產(chǎn)生實(shí)質(zhì)性影響。這些業(yè)務(wù)程序則是解決具體業(yè)務(wù)問(wèn)題的“專家”。數(shù)據(jù)湖基于從實(shí)體所有者相關(guān)的所有系統(tǒng)中捕獲的全量數(shù)據(jù)來(lái)盡可能“豐滿”地表示實(shí)體。

          因?yàn)樵趯?shí)體表示方面更優(yōu)且更完備,數(shù)據(jù)湖確實(shí)給企業(yè)數(shù)據(jù)處理與管理帶來(lái)了巨大的幫助,使得企業(yè)具備更多關(guān)于企業(yè)增長(zhǎng)方面的洞察力,幫助企業(yè)達(dá)成其商業(yè)目標(biāo)。

          值得一提的是,Martin Fowler寫(xiě)過(guò)一篇很有意思的文章,在這篇文章中,他對(duì)企業(yè)數(shù)據(jù)湖的一些關(guān)鍵方面做了簡(jiǎn)明扼要的闡述,可參考下面這個(gè)鏈接:

          https://martinfowler.com/bliki/DataLake.html


          • 數(shù)據(jù)湖的優(yōu)點(diǎn)

          企業(yè)會(huì)在其多個(gè)業(yè)務(wù)系統(tǒng)中產(chǎn)生海量數(shù)據(jù),隨著企業(yè)體量增大,企業(yè)也需要更智能地處理這些橫跨多個(gè)系統(tǒng)的數(shù)據(jù)。

          一種最基本的策略是采用一個(gè)單獨(dú)的領(lǐng)域模型,它能精準(zhǔn)地描述數(shù)據(jù)并能代表對(duì)總體業(yè)務(wù)最有價(jià)值的那部分?jǐn)?shù)據(jù)。這些數(shù)據(jù)指的是前面提到的企業(yè)數(shù)據(jù)。

          對(duì)企業(yè)數(shù)據(jù)進(jìn)行了良好定義的企業(yè)當(dāng)然也有一些管理數(shù)據(jù)的方法,因此企業(yè)數(shù)據(jù)定義的更改能保持一致性,企業(yè)內(nèi)部也很清楚系統(tǒng)是如何共享這些信息的。

          在這種案例中,系統(tǒng)被分為數(shù)據(jù)擁有者(data owner)及數(shù)據(jù)消費(fèi)者(data consumer)。對(duì)于企業(yè)數(shù)據(jù)來(lái)說(shuō),需要有對(duì)應(yīng)的擁有者,擁有者定義了數(shù)據(jù)如何被其他消費(fèi)系統(tǒng)獲取,消費(fèi)系統(tǒng)扮演著消費(fèi)者的角色。

          一旦企業(yè)有了對(duì)數(shù)據(jù)和系統(tǒng)的明晰定義,就可以通過(guò)該機(jī)制利用大量的企業(yè)信息。該機(jī)制的一種常見(jiàn)實(shí)現(xiàn)策略是通過(guò)構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖來(lái)提供統(tǒng)一的企業(yè)數(shù)據(jù)模型,在該機(jī)制中,數(shù)據(jù)湖負(fù)責(zé)捕獲數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù),以及為消費(fèi)者系統(tǒng)提供數(shù)據(jù)服務(wù)。

          數(shù)據(jù)湖能從以下方面幫助到企業(yè):

          • 實(shí)現(xiàn)數(shù)據(jù)治理(data governance)與數(shù)據(jù)世系。
          • 通過(guò)應(yīng)用機(jī)器學(xué)習(xí)與人工智能技術(shù)實(shí)現(xiàn)商業(yè)智能。
          • 預(yù)測(cè)分析,如領(lǐng)域特定的推薦引擎。
          • 信息追蹤與一致性保障。
          • 根據(jù)對(duì)歷史的分析生成新的數(shù)據(jù)維度。
          • 有一個(gè)集中式的能存儲(chǔ)所有企業(yè)數(shù)據(jù)的數(shù)據(jù)中心,有利于實(shí)現(xiàn)一個(gè)針對(duì)數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù)。
          • 幫助組織或企業(yè)做出更多靈活的關(guān)于企業(yè)增長(zhǎng)的決策。

          在本節(jié)中,我們討論數(shù)據(jù)湖應(yīng)該具備哪些能力。后續(xù)將會(huì)討論和評(píng)述數(shù)據(jù)湖是如何工作的,以及應(yīng)該如何去理解其工作機(jī)制。



          03 數(shù)據(jù)湖是如何工作的

          為了準(zhǔn)確理解數(shù)據(jù)湖能給企業(yè)帶來(lái)哪些好處,理解數(shù)據(jù)湖的工作機(jī)制以及構(gòu)建功能齊全的數(shù)據(jù)湖需要哪些組件就顯得尤為重要了。在一頭扎進(jìn)數(shù)據(jù)湖架構(gòu)細(xì)節(jié)之前,不妨先來(lái)了解數(shù)據(jù)湖背景中的數(shù)據(jù)生命周期

          在一個(gè)較高的層面來(lái)看,數(shù)據(jù)湖中數(shù)據(jù)生命周期如圖2-1所示。

          ▲圖2-1 數(shù)據(jù)湖的生命周期

          上述生命周期也可稱為數(shù)據(jù)在數(shù)據(jù)湖中的多個(gè)不同階段。每個(gè)階段所需的數(shù)據(jù)和分析方法也有所不同。數(shù)據(jù)處理與分析既可按批量(batch)方式處理,也可以按近實(shí)時(shí)(near-real-time)方式處理。

          數(shù)據(jù)湖的實(shí)現(xiàn)需要同時(shí)支持這兩種處理方式,因?yàn)椴煌奶幚矸绞椒?wù)于不同的場(chǎng)景。處理方式(批處理或近實(shí)時(shí)處理)的選擇也依賴數(shù)據(jù)處理或分析任務(wù)的計(jì)算量,因?yàn)楹芏鄰?fù)雜計(jì)算不可能在近實(shí)時(shí)處理模式中完成,而在一些案例中,則不能接受較長(zhǎng)的處理周期。

          同樣,存儲(chǔ)系統(tǒng)的選擇還依賴于數(shù)據(jù)訪問(wèn)的要求。例如,如果希望存儲(chǔ)數(shù)據(jù)時(shí)便于通過(guò)SQL查詢?cè)L問(wèn)數(shù)據(jù),則選擇的存儲(chǔ)系統(tǒng)必須支持SQL接口。

          如果數(shù)據(jù)訪問(wèn)要求提供數(shù)據(jù)視圖,則涉及將數(shù)據(jù)存儲(chǔ)為對(duì)應(yīng)的形式,即數(shù)據(jù)可以作為視圖對(duì)外提供,并提供便捷的可管理性和可訪問(wèn)性。

          最近出現(xiàn)的一個(gè)日漸重要的趨勢(shì)是通過(guò)服務(wù)(service)來(lái)提供數(shù)據(jù),它涉及在輕量級(jí)服務(wù)層上對(duì)外公開(kāi)數(shù)據(jù)。每個(gè)對(duì)外公開(kāi)的服務(wù)必須準(zhǔn)確地描述服務(wù)功能并對(duì)外提供數(shù)據(jù)。此模式還支持基于服務(wù)的數(shù)據(jù)集成,這樣其他系統(tǒng)可以消費(fèi)數(shù)據(jù)服務(wù)提供的數(shù)據(jù)。

          當(dāng)數(shù)據(jù)從采集點(diǎn)流入數(shù)據(jù)湖時(shí),它的元數(shù)據(jù)被捕獲,并根據(jù)其生命周期中的數(shù)據(jù)敏感度從數(shù)據(jù)可追溯性、數(shù)據(jù)世系和數(shù)據(jù)安全等方面進(jìn)行管理。

          數(shù)據(jù)世系被定義為數(shù)據(jù)的生命周期,包括數(shù)據(jù)的起源以及數(shù)據(jù)是如何隨時(shí)間移動(dòng)的。它描述了數(shù)據(jù)在各種處理過(guò)程中發(fā)生了哪些變化,有助于提供數(shù)據(jù)分析流水線的可見(jiàn)性,并簡(jiǎn)化了錯(cuò)誤溯源。

          可追溯性是通過(guò)標(biāo)識(shí)記錄來(lái)驗(yàn)證數(shù)據(jù)項(xiàng)的歷史、位置或應(yīng)用的能力。

          ——維基百科




          04 數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別

          很多時(shí)候,數(shù)據(jù)湖被認(rèn)為與數(shù)據(jù)倉(cāng)庫(kù)是等同的。實(shí)際上數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)代表著企業(yè)想達(dá)成的不同目標(biāo)。表2-1中顯示了兩者的關(guān)鍵區(qū)別。

          數(shù)據(jù)湖
          數(shù)據(jù)倉(cāng)庫(kù)
          能處理所有類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)的類型依賴于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式。
          只能處理結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,而且這些數(shù)據(jù)必須與數(shù)據(jù)倉(cāng)庫(kù)事先定義的模型吻合。
          擁有足夠強(qiáng)的計(jì)算能力用于處理和分析所有類型的數(shù)據(jù),分析后的數(shù)據(jù)會(huì)被存儲(chǔ)起來(lái)供用戶使用。
          處理結(jié)構(gòu)化數(shù)據(jù),將它們或者轉(zhuǎn)化為多維數(shù)據(jù),或者轉(zhuǎn)換為報(bào)表,以滿足后續(xù)的高級(jí)報(bào)表及數(shù)據(jù)分析需求。
          數(shù)據(jù)湖通常包含更多的相關(guān)的信息,這些信息有很高概率會(huì)被訪問(wèn),并且能夠?yàn)槠髽I(yè)挖掘新的運(yùn)營(yíng)需求。
          數(shù)據(jù)倉(cāng)庫(kù)通常用于存儲(chǔ)和維護(hù)長(zhǎng)期數(shù)據(jù),因此數(shù)據(jù)可以按需訪問(wèn)。
          ▲表2-1 數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵區(qū)別

          從表2-1來(lái)看,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的差別很明顯。然而,在企業(yè)中兩者的作用是互補(bǔ)的,不應(yīng)認(rèn)為數(shù)據(jù)湖的出現(xiàn)是為了取代數(shù)據(jù)倉(cāng)庫(kù),畢竟兩者的作用是截然不同的。


          05 數(shù)據(jù)湖的構(gòu)建方法

          不同的組織有不同的偏好,因此它們構(gòu)建數(shù)據(jù)湖的方式也不一樣。構(gòu)建方法與業(yè)務(wù)、處理流程及現(xiàn)存系統(tǒng)等因素有關(guān)。

          簡(jiǎn)單的數(shù)據(jù)湖實(shí)現(xiàn)幾乎等價(jià)于定義一個(gè)中心數(shù)據(jù)源,所有的系統(tǒng)都可以使用這個(gè)中心數(shù)據(jù)源來(lái)滿足所有的數(shù)據(jù)需求。雖然這種方法可能很簡(jiǎn)單,也很劃算,但它可能不是一個(gè)非常實(shí)用的方法,原因如下:

          • 只有當(dāng)這些組織重新開(kāi)始構(gòu)建其信息系統(tǒng)時(shí),這種方法才可行。
          • 這種方法解決不了與現(xiàn)存系統(tǒng)相關(guān)的問(wèn)題。
          • 即使組織決定用這種方法構(gòu)建數(shù)據(jù)湖,也缺乏明確的責(zé)任和關(guān)注點(diǎn)隔離(responsibility and separation of concerns)。
          • 這樣的系統(tǒng)通常嘗試一次性完成所有的工作,但是最終會(huì)隨著數(shù)據(jù)事務(wù)、分析和處理需求的增加而分崩離析。

          更好的構(gòu)建數(shù)據(jù)湖的策略是將企業(yè)及其信息系統(tǒng)作為一個(gè)整體來(lái)看待,對(duì)數(shù)據(jù)擁有關(guān)系進(jìn)行分類,定義統(tǒng)一的企業(yè)模型。

          這種方法雖然可能存在流程相關(guān)的挑戰(zhàn),并且可能需要花費(fèi)更多的精力來(lái)對(duì)系統(tǒng)元素進(jìn)行定義,但是它仍然能夠提供所需的靈活性、控制和清晰的數(shù)據(jù)定義以及企業(yè)中不同系統(tǒng)實(shí)體之間的關(guān)注點(diǎn)隔離。

          這樣的數(shù)據(jù)湖也可以有獨(dú)立的機(jī)制來(lái)捕獲、處理、分析數(shù)據(jù),并為消費(fèi)者應(yīng)用程序提供數(shù)據(jù)服務(wù)。

          關(guān)于作者:湯姆斯·約翰(Tomcy John)是一名企業(yè)級(jí)Java技術(shù)專家,擁有工學(xué)學(xué)士學(xué)位,并且有超過(guò)14年多行業(yè)的開(kāi)發(fā)經(jīng)驗(yàn)。
          潘卡·米斯拉(Pankaj Misra)是一名技術(shù)傳播者,擁有工程學(xué)士學(xué)位,并且有超過(guò)16年跨多個(gè)業(yè)務(wù)領(lǐng)域的技術(shù)經(jīng)驗(yàn)。

          本文摘編自《企業(yè)數(shù)據(jù)湖》,經(jīng)出版方授權(quán)發(fā)布。

          延伸閱讀《企業(yè)數(shù)據(jù)湖

          點(diǎn)擊上圖了解及購(gòu)買

          轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData


          推薦語(yǔ):本書(shū)旨在幫助你選擇正確的大數(shù)據(jù)技術(shù)并使用Lambda架構(gòu)模式來(lái)為企業(yè)構(gòu)建自己的數(shù)據(jù)湖。“數(shù)據(jù)湖”已經(jīng)成為大數(shù)據(jù)行業(yè)的一個(gè)重要術(shù)語(yǔ),它是數(shù)據(jù)科學(xué)家們獲得有意義的洞察力的平臺(tái),這些洞察力可以被企業(yè)用來(lái)重新定義或改變它們的運(yùn)營(yíng)方式。


          劃重點(diǎn)??


          干貨直達(dá)??



          更多精彩??

          在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT?|?讀書(shū)?|?書(shū)單?|?硬核?|?干貨?|?講明白?|?神操作
          大數(shù)據(jù)?|?云計(jì)算?|?數(shù)據(jù)庫(kù)?|?Python?|?可視化
          AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP
          5G?|?中臺(tái)?|?用戶畫(huà)像?|?1024?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生

          據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作
          ??


          瀏覽 16
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青青草视频网站在线免费观看 | 国产成人在线综合豆花 | 日韩欧美电影一区 | 大香蕉伊在 | 黄页网站在线观看视频 |