<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          漫說數(shù)據(jù)湖——如何建湖?如何做數(shù)據(jù)ETL?為什么大數(shù)據(jù)需要數(shù)據(jù)湖?

          共 6616字,需瀏覽 14分鐘

           ·

          2021-05-28 04:04


          作者 |友創(chuàng)云天

          來源|http://t.hk.uy/bt5

          數(shù)據(jù)湖概述

          數(shù)據(jù)湖這一概念,最早是在2011年由CITO Research網(wǎng)站的CTO和作家Dan Woods首次提出。其比喻是:如果我們把數(shù)據(jù)比作大自然的水,那么各個江川河流的水未經(jīng)加工,源源不斷地匯聚到數(shù)據(jù)湖中。業(yè)界便對數(shù)據(jù)湖一直有著廣泛而不同的理解和定義。

          “數(shù)據(jù)湖是一個集中化存儲海量的、多個來源,多種類型數(shù)據(jù),并可以對數(shù)據(jù)進行快速加工,分析的平臺,本質(zhì)上是一套先進的企業(yè)數(shù)據(jù)架構(gòu)。”

          "數(shù)據(jù)湖"的核心價值在于為企業(yè)提供了數(shù)據(jù)平臺化運營機制。隨著DT時代的到來,企業(yè)急需變革,需要利用信息化、數(shù)字化、新技術(shù)的利器形成平臺化系統(tǒng),賦能公司的人員和業(yè)務(wù),快速應(yīng)對挑戰(zhàn)。而這一切的數(shù)據(jù)基礎(chǔ),正是數(shù)據(jù)湖所能提供的。

          下面通過一組漫畫,更直觀的解釋數(shù)據(jù)湖的概念。

          從前,數(shù)據(jù)少的時候,人們拿腦子記就可以了,大不了采用結(jié)繩記事:

          后來,為了更有效率的記事和工作,數(shù)據(jù)庫出現(xiàn)了。數(shù)據(jù)庫核心是滿足快速的增刪改查,應(yīng)對聯(lián)機事務(wù)。

          比如你用銀卡消費了,后臺數(shù)據(jù)庫就要快速記下這筆交易,更新你的卡余額。

          日子久了,人們發(fā)現(xiàn),庫里的數(shù)據(jù)越來越多了,不光要支持聯(lián)機業(yè)務(wù),還有分析的價值。但是,傳統(tǒng)數(shù)據(jù)庫要滿足頻繁、快速的讀寫需求,并不適合這種以讀取大量數(shù)據(jù)為特征的分析業(yè)務(wù)。

          于是,人們在現(xiàn)有的數(shù)據(jù)庫基礎(chǔ)上,對數(shù)據(jù)進行加工。這個加工過程,被稱為:ETL(Extract-Transform-Load)抽取、轉(zhuǎn)換和加載。

          經(jīng)過這三步,數(shù)據(jù)倉庫就建好了。這個“倉庫”,主要是為了數(shù)據(jù)分析用途,比如用于BI、出報表、做經(jīng)營分析等等。

          簡要總結(jié)下:數(shù)據(jù)庫用于聯(lián)機事務(wù),通常為小數(shù)據(jù)量高頻讀寫。

          數(shù)據(jù)庫等原始數(shù)據(jù),經(jīng)過ETL加工以后,就被裝進了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫主要用于聯(lián)機分析業(yè)務(wù),通常為大數(shù)據(jù)量讀取。

          雖然應(yīng)用場景不一樣,但他們都是結(jié)構(gòu)化數(shù)據(jù)

          在相當(dāng)長的一段時間內(nèi),他們聯(lián)合起來,共同滿足企業(yè)的實時“交易”型業(yè)務(wù)和聯(lián)機“分析性”的業(yè)務(wù)。

          隨著時代的發(fā)展,數(shù)據(jù)的類型越來越多,人們對數(shù)據(jù)的需求也越來越復(fù)雜。

          企業(yè)越來越看重這些“大數(shù)據(jù)”的價值,希望把他們存好、用好。

          這些數(shù)據(jù),五花八門,又多又雜,怎么存呢?

          索性挖個大坑吧!

          這就是數(shù)據(jù)湖的原型。說白了,數(shù)據(jù)湖就像一個“大水坑”,是一種把各類異構(gòu)數(shù)據(jù)進行集中存儲的架構(gòu)。

          為什么不是數(shù)據(jù)河Data River?

          因為,數(shù)據(jù)要能存,而不是一江春水向東流。

          為什么不是數(shù)據(jù)池Data Pool?

          因為,要足夠大,大數(shù)據(jù)太大,一池存不下。

          為什么不是數(shù)據(jù)海Data Sea?

          因為,企業(yè)的數(shù)據(jù)要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。

          so,數(shù)據(jù)湖,Data Lake,剛剛好。

          可是,概念雖好,把這個“水坑”用好卻不容易。

          數(shù)據(jù)湖特點

          數(shù)據(jù)湖本身,具備以下幾個特點:

          1.原始數(shù)據(jù)

          海量原始數(shù)據(jù)集中存儲,無需加工。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志, XML, JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔, PDF)和二進制數(shù)據(jù)(圖像,音頻,視頻)。也就是數(shù)據(jù)湖將不同種類的數(shù)據(jù)匯聚到一起。

          2.按需計算

          使用者按需處理,不需要移動數(shù)據(jù)即可計算。數(shù)據(jù)庫通常提供了多種數(shù)據(jù)計算引擎供用戶來選擇。常見的包括批量、實時查詢、流式處理、機器學(xué)習(xí)等。

          3.延遲綁定

          數(shù)據(jù)湖提供靈活的,面向任務(wù)的數(shù)據(jù)編訂,不需要提前定義數(shù)據(jù)模型。

          數(shù)據(jù)湖優(yōu)缺點

          任何事物都有兩面性,數(shù)據(jù)湖有優(yōu)點也同樣存在些缺點。

          1.優(yōu)點

          1. 數(shù)據(jù)湖中的數(shù)據(jù)最接近原生的。這對于數(shù)據(jù)探索類需求,帶來很大便利,可以直接得到原始數(shù)據(jù)。

          2. 數(shù)據(jù)湖統(tǒng)一企業(yè)內(nèi)部各個業(yè)務(wù)系統(tǒng)數(shù)據(jù),解決信息孤島問題。為橫跨多個系統(tǒng)的數(shù)據(jù)應(yīng)用,提供一種可能。

          3. 數(shù)據(jù)湖提供了全局的、統(tǒng)一的企業(yè)級數(shù)據(jù)概覽視圖,這對于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全..直到整體的數(shù)據(jù)治理,甚至提高到數(shù)據(jù)資產(chǎn)層面都大有裨益。

          4. 數(shù)據(jù)湖改變了原有工作模式,鼓勵人人了解、分析數(shù)據(jù);而不是依賴于專門的數(shù)據(jù)團隊的”供給”方式,可以提升數(shù)據(jù)運營效率、改善客戶互動、鼓勵數(shù)據(jù)創(chuàng)新。

          缺點

          1. 對數(shù)據(jù)的歸集處理程度明顯缺失,對于試圖直接使用數(shù)據(jù)的用戶來說顯得有些過于“原材料”化,且數(shù)據(jù)太過冗余。應(yīng)對這一問題,可通過”數(shù)據(jù)接入+數(shù)據(jù)加工+數(shù)據(jù)建模”的方式來解決。

          2. 對數(shù)據(jù)湖基礎(chǔ)層的性能有較高要求,必須依托高性能的服務(wù)器進行數(shù)據(jù)處理過程。這主要是來自于海量數(shù)據(jù)、異構(gòu)多樣化數(shù)據(jù)、延遲綁定模式等帶來的問題。.

          3. 數(shù)據(jù)處理技能要求高。這也主要是因為數(shù)據(jù)過于原始帶來的問題。

          數(shù)據(jù)湖與關(guān)聯(lián)概念

          1.數(shù)據(jù)湖與數(shù)據(jù)倉庫

          數(shù)據(jù)湖建設(shè)思路從本質(zhì)上顛覆了傳統(tǒng)數(shù)據(jù)倉庫建設(shè)方法論。傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫則強調(diào)的是整合、面向主題、分層次等思路。其兩者并不是對等的概念,更多是包含;即數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應(yīng)用”存在。

          兩者可從以下維度進行對比:

          1)存儲數(shù)據(jù)類型

          數(shù)據(jù)倉庫是存儲清洗加工過的,可信任的、結(jié)構(gòu)良好的數(shù)據(jù);數(shù)據(jù)湖則是存儲大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在我們世界中,主要是由原始的、混亂的、非結(jié)構(gòu)化的數(shù)據(jù)組成。

          隨著“混亂數(shù)據(jù)”的不斷升級,人們對它的興趣也不斷增長,想要更好的理解它、從其中獲取價值、并根據(jù)它做出決策。這就得需要一個靈活、敏捷、經(jīng)濟且相對輕松的解決方案,然而這些都不是數(shù)據(jù)倉庫的強項。而且當(dāng)有新的需求提出時,傳統(tǒng)數(shù)據(jù)倉庫又難以快速隨之變化。

          2)處理數(shù)據(jù)方式

          如果需要加載到數(shù)據(jù)倉庫中的數(shù)據(jù),我們首先需要定義好它,這叫做寫時模式(Schema-On-Write)。而對于數(shù)據(jù)湖,您只需加載原始數(shù)據(jù),然后,當(dāng)您準備使用數(shù)據(jù)時,就給它一個定義,這叫做讀時模式(Schema-On-Read)。

          這是兩種截然不同的數(shù)據(jù)處理方法。因為數(shù)據(jù)湖是在數(shù)據(jù)到使用時再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求。

          3)工作合作方式

          傳統(tǒng)的數(shù)據(jù)倉庫的工作方式是集中式的,業(yè)務(wù)人員給需求到數(shù)據(jù)團隊,數(shù)據(jù)團隊根據(jù)要求加工、開發(fā)成維度表,供業(yè)務(wù)團隊通過BI報表工具查詢。

          數(shù)據(jù)湖更多是開放、自助式的(self-service),開放數(shù)據(jù)給所有人使用,數(shù)據(jù)團隊更多是提供工具、環(huán)境供各業(yè)務(wù)團隊使用(不過集中式的維度表建設(shè)還是需要的),業(yè)務(wù)團隊進行開發(fā)、分析。

          2.數(shù)據(jù)湖 vs 大數(shù)據(jù)

          數(shù)據(jù)湖的技術(shù)實現(xiàn),與大數(shù)據(jù)技術(shù)緊密結(jié)合。

          ·通過Hadoop存儲成本低的特點,將海量的原始數(shù)據(jù)、本地數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)等保存在Hadoop中。這樣所有數(shù)據(jù)都在一個地方存儲,能給后續(xù)的管理、再處理、分析提供基礎(chǔ)。

          ·通過Hive、Spark等低成本處理能力(相較于RDBMS),將數(shù)據(jù)交給大數(shù)據(jù)庫平臺劑型處理。此外,還可通過Storm、Flink等支持流式處理等特殊計算方式。

          ·由于Hadoop的可擴展性,可以很方便地實現(xiàn)全量數(shù)據(jù)存儲。結(jié)合數(shù)據(jù)生命周期管理,可做到全時間跨度的數(shù)據(jù)管控

          3.數(shù)據(jù)湖 vs 云計算

          云計算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對服務(wù)器、網(wǎng)絡(luò)、存儲等基礎(chǔ)資源的最大化利用,降低企業(yè)對IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來了巨大的經(jīng)濟性;同時云計算技術(shù)實現(xiàn)了主機、存儲等資源快速申請、使用,則同樣為企業(yè)帶來了更多的管理便捷性。在構(gòu)建數(shù)據(jù)湖的基礎(chǔ)設(shè)施時,云計算技術(shù)可以發(fā)揮很大作用。此外,像AWS、MicroSoft、EMC等均提供了云端的數(shù)據(jù)湖服務(wù)。

          4.數(shù)據(jù)湖 vs 人工智能

          近些年,人工智能技術(shù)再一次飛速發(fā)展,訓(xùn)練和推理等需要同時處理超大的,甚至是多個數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個行業(yè)、組織、項目,對這些數(shù)據(jù)的采集、存儲、清洗、轉(zhuǎn)換、特征提取等工作是一個系列復(fù)雜、漫長的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集、治理、分析的平臺,同時提供極高的帶寬、海量小文件存取、多協(xié)議互通、數(shù)據(jù)共享的能力,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過程。

          5.數(shù)據(jù)湖 vs 數(shù)據(jù)治理

          傳統(tǒng)方式下,數(shù)據(jù)治理工作往往是在數(shù)據(jù)倉庫中。那么在構(gòu)建企業(yè)級數(shù)據(jù)湖后,對數(shù)據(jù)治理的需求實際更強了。因為與”預(yù)建模”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)格化等,需要通過治理工作達到數(shù)據(jù)”可用”狀態(tài),否則數(shù)據(jù)湖很可能會”腐化”成數(shù)據(jù)沼澤,浪費大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。

          6.數(shù)據(jù)湖 vs 數(shù)據(jù)安全

          數(shù)據(jù)湖中存放有大量原始及加工過的數(shù)據(jù),這些數(shù)據(jù)在不受監(jiān)管的情況下被訪問是非常危險的。這里是需要考慮必要的數(shù)據(jù)安全及隱私保護問題,這些是需要數(shù)據(jù)湖提供的能力。但換種角度來看,將數(shù)據(jù)集中在數(shù)據(jù)湖中,其實是有利于數(shù)據(jù)安全工作的。這要比數(shù)據(jù)分散在企業(yè)各處要好的多。

          數(shù)據(jù)湖的架構(gòu)體系

          數(shù)據(jù)湖是一種存儲架構(gòu),本質(zhì)上講是存儲,企業(yè)基于云服務(wù),可以快速挖出一個適合自己的“湖”,完成數(shù)據(jù)的采集、存儲、處理、治理,提供數(shù)據(jù)集成共享服務(wù)、高性能計算能力和大數(shù)據(jù)分析算法模型,支撐經(jīng)營管理數(shù)據(jù)分析應(yīng)用的全面開展。為規(guī)模化數(shù)據(jù)應(yīng)用賦能。

          數(shù)據(jù)湖技術(shù)架構(gòu)涉及了數(shù)據(jù)接入(轉(zhuǎn)移)、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)應(yīng)用、數(shù)據(jù)治理、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)資源目錄、數(shù)據(jù)安全及數(shù)據(jù)審計等10個方面領(lǐng)域:

          1.數(shù)據(jù)接入(移動)

          數(shù)據(jù)提取允許連接器從不同的數(shù)據(jù)源獲取數(shù)據(jù)并加載到數(shù)據(jù)湖中。數(shù)據(jù)提取支持:所有類型的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。批量,實時,一次性負載等多次攝取;在數(shù)據(jù)接入方面,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式,為企業(yè)數(shù)據(jù)湖的數(shù)據(jù)抽取匯聚提供通道。

          2.數(shù)據(jù)存儲

          數(shù)據(jù)存儲應(yīng)是可擴展的,提供經(jīng)濟高效的存儲并允許快速訪問數(shù)據(jù)探索。它應(yīng)該支持各種數(shù)據(jù)格式。

          3.數(shù)據(jù)計算

          數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎,來滿足數(shù)據(jù)計算需求。需要滿足批量、實時、流式等特定計算場景。此外,向下還需要提供海量數(shù)據(jù)的訪問能力,可滿足高并發(fā)讀取需求,提高實時分析效率。并需要兼容各種開源的數(shù)據(jù)格式,直接訪問以這些格式存儲的數(shù)據(jù)。

          4.數(shù)據(jù)治理

          數(shù)據(jù)治理是管理數(shù)據(jù)湖中使用的數(shù)據(jù)的可用性,安全性和完整性的過程。數(shù)據(jù)治理是一項持續(xù)的工作,通過闡明戰(zhàn)略、建立框架、制定方 針以及實現(xiàn)數(shù)據(jù)共享,為所有其他數(shù)據(jù)管理職能提供指導(dǎo)和監(jiān)督。

          5.元數(shù)據(jù)

          元數(shù)據(jù)管理是數(shù)據(jù)湖整個數(shù)據(jù)生命周期中需要做的基礎(chǔ)性工作,企業(yè)需要對元數(shù)據(jù)的生命周期進行管理。元數(shù)據(jù)管理本身并不是目的,它是組織從其數(shù)據(jù)中獲得更多價值的一種手段,要達到數(shù)據(jù)驅(qū)動,組織必須先是由元數(shù)據(jù)驅(qū)動的。

          6.數(shù)據(jù)資源目錄

          數(shù)據(jù)資源目錄的初始構(gòu)建,通常會掃描大量數(shù)據(jù)以收集元數(shù)據(jù)。目錄的數(shù)據(jù)范圍可能包括全部數(shù)據(jù)湖中被確定為有價值和可共享的數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資源目錄使用算法和機器學(xué)習(xí)自動完成查找和掃描數(shù)據(jù)集、提取元數(shù)據(jù)以支持數(shù)據(jù)集發(fā)現(xiàn)、暴露數(shù)據(jù)沖突、推斷語義和業(yè)務(wù)術(shù)語、給數(shù)據(jù)打標(biāo)簽以支持搜索、以及標(biāo)識隱私、安全性和敏感數(shù)據(jù)的合規(guī)性。

          7.隱私與安全

          數(shù)據(jù)安全是安全政策和安全程序的規(guī)劃、開發(fā)和執(zhí)行、以提供對數(shù)據(jù)和信息資產(chǎn)的身份驗證、授權(quán)、訪問和審核。需要在數(shù)據(jù)湖的每個層中實現(xiàn)安全性。它始于存儲,發(fā)掘和消耗,基本需求是停止未授權(quán)用戶的訪問。身份驗證、審計、授權(quán)和數(shù)據(jù)保護是數(shù)據(jù)湖安全的一些重要特性。

          8.數(shù)據(jù)質(zhì)量

          數(shù)據(jù)質(zhì)量是數(shù)據(jù)湖架構(gòu)的重要組成部分。數(shù)據(jù)用于確定商業(yè)價值,從劣質(zhì)數(shù)據(jù)中提取洞察力將導(dǎo)致質(zhì)量差的洞察力。數(shù)據(jù)質(zhì)量重點關(guān)注需求、檢查、分析和提升的實現(xiàn)能力,對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題進行識別、度量、監(jiān)控、預(yù)警等一系列活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進一步提高。

          9.數(shù)據(jù)審計

          兩個主要的數(shù)據(jù)審計任務(wù)是跟蹤對關(guān)鍵數(shù)據(jù)集的更改:跟蹤重要數(shù)據(jù)集元素的更改;捕獲如何/何時/以及更改這些元素的人員。數(shù)據(jù)審計有助于評估風(fēng)險和合規(guī)性。

          10.數(shù)據(jù)應(yīng)用

          數(shù)據(jù)應(yīng)用是指通過對數(shù)據(jù)湖的數(shù)據(jù)進行統(tǒng)一的管理、加工和應(yīng)用,對內(nèi)支持業(yè)務(wù)運營、流程優(yōu)化、營銷推廣、風(fēng)險管理、渠道整合等活動,對外支持數(shù)據(jù)開放共享、數(shù)據(jù)服務(wù)等活動,從而提升數(shù)據(jù)在組織運營管理過程中的支撐輔助作用,同時實現(xiàn)數(shù)據(jù)價值的變現(xiàn)。在基本的計算能力之上,數(shù)據(jù)湖需提供批量報表、即席查詢、交互式分析、數(shù)據(jù)倉庫、機器學(xué)習(xí)等上層應(yīng)用,還需要提供自助式數(shù)據(jù)探索能力。

          如何通過數(shù)據(jù)治理實現(xiàn)數(shù)據(jù)湖商業(yè)價值

          數(shù)據(jù)湖對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。構(gòu)建開放、靈活、可擴展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。

          1. 利用數(shù)據(jù)湖智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足企業(yè)各級數(shù)據(jù)分析應(yīng)用需求。

          2. 深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準、認責(zé)、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。

          數(shù)據(jù)湖遇到挑戰(zhàn)

          數(shù)據(jù)湖本身是一個中心化的存儲,能夠存儲任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖的優(yōu)勢就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來。當(dāng)部署了數(shù)據(jù)湖之后,數(shù)據(jù)治理問題將會接踵而至,比如從數(shù)據(jù)湖到數(shù)據(jù)湖,如何將數(shù)據(jù)進行分流、湖的數(shù)據(jù)如何進行整理等。

          數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過過整理、清晰易懂的。而數(shù)據(jù)湖的概念是不經(jīng)處理直接進行堆砌,那么數(shù)據(jù)湖就有可能會變成“數(shù)據(jù)沼澤”,篩選難度會變大。由于定義不正確、信息不完整、數(shù)據(jù)陳舊或無法找到所需信息,它需要更多的元數(shù)據(jù)來理解存儲在數(shù)據(jù)湖中的數(shù)據(jù)資產(chǎn),包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)資產(chǎn)圖譜、數(shù)據(jù)敏感性、用戶喜好、數(shù)據(jù)質(zhì)量、上下文(缺乏上下文將無法用于分析)和數(shù)據(jù)價值等業(yè)務(wù)層面的理解。另外這些系統(tǒng)和應(yīng)用是技術(shù)人員開發(fā)的,由于技術(shù)人員和業(yè)務(wù)人員的思維和“語言”存在差異,這使得業(yè)務(wù)用戶獲取數(shù)據(jù)變得更加復(fù)雜和困難。

          1.避免數(shù)據(jù)沼澤

          如何讓數(shù)據(jù)湖的水保持清亮不會成為數(shù)據(jù)沼澤?“數(shù)據(jù)湖的數(shù)據(jù)不被有效使用就會成為大垃圾場。”中國有句諺語:“流水不腐,戶樞不蠹”。數(shù)據(jù)只有流動起來,才可以不成為數(shù)據(jù)沼澤,湖泊只是暫存數(shù)據(jù)河流的基地。數(shù)據(jù)流動就意味著所有的數(shù)據(jù)產(chǎn)生,最終要有它的耕種者和使用者。要讓數(shù)據(jù)有效流動起來,就要建立有效的“數(shù)據(jù)河”(Data River)。業(yè)界在數(shù)據(jù)湖的嘗試上一般都會忽視數(shù)據(jù)治理的重要性,這是很危險的,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對數(shù)據(jù)湖持續(xù)觀望的原因之一。

          2.數(shù)據(jù)智能化治理是數(shù)據(jù)湖實現(xiàn)價值必有之路

          對數(shù)據(jù)治理的需求實際更強了。因為與“預(yù)建模”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)則化等,需要通過治理工作達到數(shù)據(jù)“可用”狀態(tài),否則數(shù)據(jù)湖很可能會“腐化”成數(shù)據(jù)沼澤,浪費大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要,沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。

          考慮全面的數(shù)據(jù)湖治理,包括是誰引入的數(shù)據(jù)、誰負責(zé)數(shù)據(jù),以及數(shù)據(jù)的定義,以確保數(shù)據(jù)的妥善標(biāo)記和使用,實現(xiàn)對企業(yè)數(shù)據(jù)資源內(nèi)容層面的優(yōu)化改造和有效管控。

          數(shù)據(jù)湖的未來展望

          現(xiàn)階段數(shù)據(jù)湖更多是作為數(shù)據(jù)倉庫的補充,數(shù)據(jù)湖概念和技術(shù)還在不斷演化,不同的解決方案供應(yīng)商也在添加新的特性和功能,包括架構(gòu)標(biāo)準化和互操作性、數(shù)據(jù)治理要求、數(shù)據(jù)安全性等。

          數(shù)據(jù)湖作為一種云服務(wù)隨時按需滿足對不同數(shù)據(jù)的分析、處理和存儲需求,數(shù)據(jù)湖的擴展性,可以為用戶提供更多的實時分析,基于企業(yè)大數(shù)據(jù)的數(shù)據(jù)湖正在向支持更多類型的實時智能化服務(wù)發(fā)展,將會為企業(yè)現(xiàn)有的數(shù)據(jù)驅(qū)動型決策制定模式帶來極大改變。

          數(shù)據(jù)湖發(fā)展到現(xiàn)在,已經(jīng)成為企業(yè)數(shù)據(jù)體系的基礎(chǔ):數(shù)據(jù)庫、數(shù)倉、大數(shù)據(jù)處理、機器學(xué)習(xí)等各種數(shù)據(jù)服務(wù),都可以“一湖盡收”。在這個“上云用數(shù)賦智”時代,很多企業(yè)已經(jīng)完成上云第一步,接下來,就是如何“用數(shù)”和“賦智”。

          瀏覽 245
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  女人18片毛片90分钟 | 艹骚逼视频 | 操片豆花视频在线观看 | 成人91久久 | 黄色AV免费看 |