<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          什么是數(shù)據(jù)湖?為什么要數(shù)據(jù)湖?如何建湖?如何ETL?

          共 6972字,需瀏覽 14分鐘

           ·

          2021-05-30 03:48

          不點藍(lán)字,我們哪來故事?

          每天 11 點更新文章,餓了點外賣,點擊 ??《無門檻外賣優(yōu)惠券,每天免費領(lǐng)!》

          作者 | 友創(chuàng)云天

          來源 | http://t.hk.uy/bt5

          數(shù)據(jù)湖概述

          數(shù)據(jù)湖這一概念,最早是在2011年由CITO Research網(wǎng)站的CTO和作家Dan Woods首次提出。其比喻是:如果我們把數(shù)據(jù)比作大自然的水,那么各個江川河流的水未經(jīng)加工,源源不斷地匯聚到數(shù)據(jù)湖中。業(yè)界便對數(shù)據(jù)湖一直有著廣泛而不同的理解和定義。

          “數(shù)據(jù)湖是一個集中化存儲海量的、多個來源,多種類型數(shù)據(jù),并可以對數(shù)據(jù)進(jìn)行快速加工,分析的平臺,本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)。”

          "數(shù)據(jù)湖"的核心價值在于為企業(yè)提供了數(shù)據(jù)平臺化運營機制。隨著DT時代的到來,企業(yè)急需變革,需要利用信息化、數(shù)字化、新技術(shù)的利器形成平臺化系統(tǒng),賦能公司的人員和業(yè)務(wù),快速應(yīng)對挑戰(zhàn)。而這一切的數(shù)據(jù)基礎(chǔ),正是數(shù)據(jù)湖所能提供的。

          下面通過一組漫畫,更直觀的解釋數(shù)據(jù)湖的概念。

          從前,數(shù)據(jù)少的時候,人們拿腦子記就可以了,大不了采用結(jié)繩記事:

          別再糾結(jié)線程池大小 + 線程數(shù)量了,沒有固定公式的!

          后來,為了更有效率的記事和工作,數(shù)據(jù)庫出現(xiàn)了。數(shù)據(jù)庫核心是滿足快速的增刪改查,應(yīng)對聯(lián)機事務(wù)。

          比如你用銀卡消費了,后臺數(shù)據(jù)庫就要快速記下這筆交易,更新你的卡余額。

          日子久了,人們發(fā)現(xiàn),庫里的數(shù)據(jù)越來越多了,不光要支持聯(lián)機業(yè)務(wù),還有分析的價值。但是,傳統(tǒng)數(shù)據(jù)庫要滿足頻繁、快速的讀寫需求,并不適合這種以讀取大量數(shù)據(jù)為特征的分析業(yè)務(wù)。

          于是,人們在現(xiàn)有的數(shù)據(jù)庫基礎(chǔ)上,對數(shù)據(jù)進(jìn)行加工。這個加工過程,被稱為:ETL(Extract-Transform-Load)抽取、轉(zhuǎn)換和加載。

          常用正則表達(dá)式最強整理(速查手冊)

          經(jīng)過這三步,數(shù)據(jù)倉庫就建好了。這個“倉庫”,主要是為了數(shù)據(jù)分析用途,比如用于BI、出報表、做經(jīng)營分析等等。

          簡要總結(jié)下:數(shù)據(jù)庫用于聯(lián)機事務(wù),通常為小數(shù)據(jù)量高頻讀寫。

          數(shù)據(jù)庫等原始數(shù)據(jù),經(jīng)過ETL加工以后,就被裝進(jìn)了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫主要用于聯(lián)機分析業(yè)務(wù),通常為大數(shù)據(jù)量讀取。

          雖然應(yīng)用場景不一樣,但他們都是結(jié)構(gòu)化數(shù)據(jù)。

          在相當(dāng)長的一段時間內(nèi),他們聯(lián)合起來,共同滿足企業(yè)的實時“交易”型業(yè)務(wù)和聯(lián)機“分析性”的業(yè)務(wù)。

          隨著時代的發(fā)展,數(shù)據(jù)的類型越來越多,人們對數(shù)據(jù)的需求也越來越復(fù)雜。

          收藏吧!產(chǎn)品再要求實現(xiàn)這個功能,就把這篇轉(zhuǎn)給他!

          企業(yè)越來越看重這些“大數(shù)據(jù)”的價值,希望把他們存好、用好。

          這些數(shù)據(jù),五花八門,又多又雜,怎么存呢?

          索性挖個大坑吧!

          這就是數(shù)據(jù)湖的原型。說白了,數(shù)據(jù)湖就像一個“大水坑”,是一種把各類異構(gòu)數(shù)據(jù)進(jìn)行集中存儲的架構(gòu)。

          為什么不是數(shù)據(jù)河Data River?

          因為,數(shù)據(jù)要能存,而不是一江春水向東流。

          為什么不是數(shù)據(jù)池Data Pool?

          因為,要足夠大,大數(shù)據(jù)太大,一池存不下。

          為什么不是數(shù)據(jù)海Data Sea?

          因為,企業(yè)的數(shù)據(jù)要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。

          so,數(shù)據(jù)湖,Data Lake,剛剛好。

          可是,概念雖好,把這個“水坑”用好卻不容易。


          數(shù)據(jù)湖特點

          數(shù)據(jù)湖本身,具備以下幾個特點:

          1.原始數(shù)據(jù)

          海量原始數(shù)據(jù)集中存儲,無需加工。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志, XML, JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔, PDF)和二進(jìn)制數(shù)據(jù)(圖像,音頻,視頻)。也就是數(shù)據(jù)湖將不同種類的數(shù)據(jù)匯聚到一起。

          2.按需計算

          使用者按需處理,不需要移動數(shù)據(jù)即可計算。數(shù)據(jù)庫通常提供了多種數(shù)據(jù)計算引擎供用戶來選擇。常見的包括批量、實時查詢、流式處理、機器學(xué)習(xí)等。

          3.延遲綁定

          數(shù)據(jù)湖提供靈活的,面向任務(wù)的數(shù)據(jù)編訂,不需要提前定義數(shù)據(jù)模型。

          數(shù)據(jù)湖優(yōu)缺點

          任何事物都有兩面性,數(shù)據(jù)湖有優(yōu)點也同樣存在些缺點。

          1.優(yōu)點

          1. 數(shù)據(jù)湖中的數(shù)據(jù)最接近原生的。這對于數(shù)據(jù)探索類需求,帶來很大便利,可以直接得到原始數(shù)據(jù)。
          2. 數(shù)據(jù)湖統(tǒng)一企業(yè)內(nèi)部各個業(yè)務(wù)系統(tǒng)數(shù)據(jù),解決信息孤島問題。為橫跨多個系統(tǒng)的數(shù)據(jù)應(yīng)用,提供一種可能。
          3. 數(shù)據(jù)湖提供了全局的、統(tǒng)一的企業(yè)級數(shù)據(jù)概覽視圖,這對于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全..直到整體的數(shù)據(jù)治理,甚至提高到數(shù)據(jù)資產(chǎn)層面都大有裨益。
          4. 數(shù)據(jù)湖改變了原有工作模式,鼓勵人人了解、分析數(shù)據(jù);而不是依賴于專門的數(shù)據(jù)團(tuán)隊的”供給”方式,可以提升數(shù)據(jù)運營效率、改善客戶互動、鼓勵數(shù)據(jù)創(chuàng)新。

          面試:ConcurrentHashMap線程安全嗎

          缺點

          1. 對數(shù)據(jù)的歸集處理程度明顯缺失,對于試圖直接使用數(shù)據(jù)的用戶來說顯得有些過于“原材料”化,且數(shù)據(jù)太過冗余。應(yīng)對這一問題,可通過”數(shù)據(jù)接入+數(shù)據(jù)加工+數(shù)據(jù)建模”的方式來解決。
          2. 對數(shù)據(jù)湖基礎(chǔ)層的性能有較高要求,必須依托高性能的服務(wù)器進(jìn)行數(shù)據(jù)處理過程。這主要是來自于海量數(shù)據(jù)、異構(gòu)多樣化數(shù)據(jù)、延遲綁定模式等帶來的問題。.
          3. 數(shù)據(jù)處理技能要求高。這也主要是因為數(shù)據(jù)過于原始帶來的問題。

          數(shù)據(jù)湖與關(guān)聯(lián)概念

          1.數(shù)據(jù)湖與數(shù)據(jù)倉庫

          數(shù)據(jù)湖建設(shè)思路從本質(zhì)上顛覆了傳統(tǒng)數(shù)據(jù)倉庫建設(shè)方法論。傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫則強調(diào)的是整合、面向主題、分層次等思路。其兩者并不是對等的概念,更多是包含;即數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應(yīng)用”存在。

          兩者可從以下維度進(jìn)行對比:

          1)存儲數(shù)據(jù)類型

          數(shù)據(jù)倉庫是存儲清洗加工過的,可信任的、結(jié)構(gòu)良好的數(shù)據(jù);數(shù)據(jù)湖則是存儲大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在我們世界中,主要是由原始的、混亂的、非結(jié)構(gòu)化的數(shù)據(jù)組成。

          隨著“混亂數(shù)據(jù)”的不斷升級,人們對它的興趣也不斷增長,想要更好的理解它、從其中獲取價值、并根據(jù)它做出決策。這就得需要一個靈活、敏捷、經(jīng)濟(jì)且相對輕松的解決方案,然而這些都不是數(shù)據(jù)倉庫的強項。而且當(dāng)有新的需求提出時,傳統(tǒng)數(shù)據(jù)倉庫又難以快速隨之變化。

          2)處理數(shù)據(jù)方式

          如果需要加載到數(shù)據(jù)倉庫中的數(shù)據(jù),我們首先需要定義好它,這叫做寫時模式(Schema-On-Write)。而對于數(shù)據(jù)湖,您只需加載原始數(shù)據(jù),然后,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時,就給它一個定義,這叫做讀時模式(Schema-On-Read)。

          這是兩種截然不同的數(shù)據(jù)處理方法。因為數(shù)據(jù)湖是在數(shù)據(jù)到使用時再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求。

          3)工作合作方式

          傳統(tǒng)的數(shù)據(jù)倉庫的工作方式是集中式的,業(yè)務(wù)人員給需求到數(shù)據(jù)團(tuán)隊,數(shù)據(jù)團(tuán)隊根據(jù)要求加工、開發(fā)成維度表,供業(yè)務(wù)團(tuán)隊通過BI報表工具查詢。

          數(shù)據(jù)湖更多是開放、自助式的(self-service),開放數(shù)據(jù)給所有人使用,數(shù)據(jù)團(tuán)隊更多是提供工具、環(huán)境供各業(yè)務(wù)團(tuán)隊使用(不過集中式的維度表建設(shè)還是需要的),業(yè)務(wù)團(tuán)隊進(jìn)行開發(fā)、分析。

          2.數(shù)據(jù)湖 vs 大數(shù)據(jù)

          數(shù)據(jù)湖的技術(shù)實現(xiàn),與大數(shù)據(jù)技術(shù)緊密結(jié)合。

          ·通過Hadoop存儲成本低的特點,將海量的原始數(shù)據(jù)、本地數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)等保存在Hadoop中。這樣所有數(shù)據(jù)都在一個地方存儲,能給后續(xù)的管理、再處理、分析提供基礎(chǔ)。

          ·通過Hive、Spark等低成本處理能力(相較于RDBMS),將數(shù)據(jù)交給大數(shù)據(jù)庫平臺劑型處理。此外,還可通過Storm、Flink等支持流式處理等特殊計算方式。

          ·由于Hadoop的可擴(kuò)展性,可以很方便地實現(xiàn)全量數(shù)據(jù)存儲。結(jié)合數(shù)據(jù)生命周期管理,可做到全時間跨度的數(shù)據(jù)管控

          3.數(shù)據(jù)湖 vs 云計算

          云計算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對服務(wù)器、網(wǎng)絡(luò)、存儲等基礎(chǔ)資源的最大化利用,降低企業(yè)對IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來了巨大的經(jīng)濟(jì)性;同時云計算技術(shù)實現(xiàn)了主機、存儲等資源快速申請、使用,則同樣為企業(yè)帶來了更多的管理便捷性。在構(gòu)建數(shù)據(jù)湖的基礎(chǔ)設(shè)施時,云計算技術(shù)可以發(fā)揮很大作用。此外,像AWS、MicroSoft、EMC等均提供了云端的數(shù)據(jù)湖服務(wù)。

          4.數(shù)據(jù)湖 vs 人工智能

          近些年,人工智能技術(shù)再一次飛速發(fā)展,訓(xùn)練和推理等需要同時處理超大的,甚至是多個數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個行業(yè)、組織、項目,對這些數(shù)據(jù)的采集、存儲、清洗、轉(zhuǎn)換、特征提取等工作是一個系列復(fù)雜、漫長的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集、治理、分析的平臺,同時提供極高的帶寬、海量小文件存取、多協(xié)議互通、數(shù)據(jù)共享的能力,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過程。

          5.數(shù)據(jù)湖 vs 數(shù)據(jù)治理

          傳統(tǒng)方式下,數(shù)據(jù)治理工作往往是在數(shù)據(jù)倉庫中。那么在構(gòu)建企業(yè)級數(shù)據(jù)湖后,對數(shù)據(jù)治理的需求實際更強了。因為與”預(yù)建模”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)格化等,需要通過治理工作達(dá)到數(shù)據(jù)”可用”狀態(tài),否則數(shù)據(jù)湖很可能會”腐化”成數(shù)據(jù)沼澤,浪費大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。

          6.數(shù)據(jù)湖 vs 數(shù)據(jù)安全

          數(shù)據(jù)湖中存放有大量原始及加工過的數(shù)據(jù),這些數(shù)據(jù)在不受監(jiān)管的情況下被訪問是非常危險的。這里是需要考慮必要的數(shù)據(jù)安全及隱私保護(hù)問題,這些是需要數(shù)據(jù)湖提供的能力。但換種角度來看,將數(shù)據(jù)集中在數(shù)據(jù)湖中,其實是有利于數(shù)據(jù)安全工作的。這要比數(shù)據(jù)分散在企業(yè)各處要好的多。


          數(shù)據(jù)湖的架構(gòu)體系

          數(shù)據(jù)湖是一種存儲架構(gòu),本質(zhì)上講是存儲,企業(yè)基于云服務(wù),可以快速挖出一個適合自己的“湖”,完成數(shù)據(jù)的采集、存儲、處理、治理,提供數(shù)據(jù)集成共享服務(wù)、高性能計算能力和大數(shù)據(jù)分析算法模型,支撐經(jīng)營管理數(shù)據(jù)分析應(yīng)用的全面開展。為規(guī)模化數(shù)據(jù)應(yīng)用賦能。

          數(shù)據(jù)湖技術(shù)架構(gòu)涉及了數(shù)據(jù)接入(轉(zhuǎn)移)、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)應(yīng)用、數(shù)據(jù)治理、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)資源目錄、數(shù)據(jù)安全及數(shù)據(jù)審計等10個方面領(lǐng)域:

          Spring Security 5.5發(fā)布,正式實裝OAuth2.0的第五種授權(quán)模式

          1.數(shù)據(jù)接入(移動)

          數(shù)據(jù)提取允許連接器從不同的數(shù)據(jù)源獲取數(shù)據(jù)并加載到數(shù)據(jù)湖中。數(shù)據(jù)提取支持:所有類型的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。批量,實時,一次性負(fù)載等多次攝取;在數(shù)據(jù)接入方面,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式,為企業(yè)數(shù)據(jù)湖的數(shù)據(jù)抽取匯聚提供通道。

          2.數(shù)據(jù)存儲

          數(shù)據(jù)存儲應(yīng)是可擴(kuò)展的,提供經(jīng)濟(jì)高效的存儲并允許快速訪問數(shù)據(jù)探索。它應(yīng)該支持各種數(shù)據(jù)格式。

          3.數(shù)據(jù)計算

          數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎,來滿足數(shù)據(jù)計算需求。需要滿足批量、實時、流式等特定計算場景。此外,向下還需要提供海量數(shù)據(jù)的訪問能力,可滿足高并發(fā)讀取需求,提高實時分析效率。并需要兼容各種開源的數(shù)據(jù)格式,直接訪問以這些格式存儲的數(shù)據(jù)。

          4.數(shù)據(jù)治理

          數(shù)據(jù)治理是管理數(shù)據(jù)湖中使用的數(shù)據(jù)的可用性,安全性和完整性的過程。數(shù)據(jù)治理是一項持續(xù)的工作,通過闡明戰(zhàn)略、建立框架、制定方 針以及實現(xiàn)數(shù)據(jù)共享,為所有其他數(shù)據(jù)管理職能提供指導(dǎo)和監(jiān)督。

          5.元數(shù)據(jù)

          元數(shù)據(jù)管理是數(shù)據(jù)湖整個數(shù)據(jù)生命周期中需要做的基礎(chǔ)性工作,企業(yè)需要對元數(shù)據(jù)的生命周期進(jìn)行管理。元數(shù)據(jù)管理本身并不是目的,它是組織從其數(shù)據(jù)中獲得更多價值的一種手段,要達(dá)到數(shù)據(jù)驅(qū)動,組織必須先是由元數(shù)據(jù)驅(qū)動的。

          6.數(shù)據(jù)資源目錄

          數(shù)據(jù)資源目錄的初始構(gòu)建,通常會掃描大量數(shù)據(jù)以收集元數(shù)據(jù)。目錄的數(shù)據(jù)范圍可能包括全部數(shù)據(jù)湖中被確定為有價值和可共享的數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資源目錄使用算法和機器學(xué)習(xí)自動完成查找和掃描數(shù)據(jù)集、提取元數(shù)據(jù)以支持?jǐn)?shù)據(jù)集發(fā)現(xiàn)、暴露數(shù)據(jù)沖突、推斷語義和業(yè)務(wù)術(shù)語、給數(shù)據(jù)打標(biāo)簽以支持搜索、以及標(biāo)識隱私、安全性和敏感數(shù)據(jù)的合規(guī)性。

          7.隱私與安全

          數(shù)據(jù)安全是安全政策和安全程序的規(guī)劃、開發(fā)和執(zhí)行、以提供對數(shù)據(jù)和信息資產(chǎn)的身份驗證、授權(quán)、訪問和審核。需要在數(shù)據(jù)湖的每個層中實現(xiàn)安全性。它始于存儲,發(fā)掘和消耗,基本需求是停止未授權(quán)用戶的訪問。身份驗證、審計、授權(quán)和數(shù)據(jù)保護(hù)是數(shù)據(jù)湖安全的一些重要特性。

          8.數(shù)據(jù)質(zhì)量

          數(shù)據(jù)質(zhì)量是數(shù)據(jù)湖架構(gòu)的重要組成部分。數(shù)據(jù)用于確定商業(yè)價值,從劣質(zhì)數(shù)據(jù)中提取洞察力將導(dǎo)致質(zhì)量差的洞察力。數(shù)據(jù)質(zhì)量重點關(guān)注需求、檢查、分析和提升的實現(xiàn)能力,對數(shù)據(jù)從計劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

          9.數(shù)據(jù)審計

          兩個主要的數(shù)據(jù)審計任務(wù)是跟蹤對關(guān)鍵數(shù)據(jù)集的更改:跟蹤重要數(shù)據(jù)集元素的更改;捕獲如何/何時/以及更改這些元素的人員。數(shù)據(jù)審計有助于評估風(fēng)險和合規(guī)性。

          10.數(shù)據(jù)應(yīng)用

          數(shù)據(jù)應(yīng)用是指通過對數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行統(tǒng)一的管理、加工和應(yīng)用,對內(nèi)支持業(yè)務(wù)運營、流程優(yōu)化、營銷推廣、風(fēng)險管理、渠道整合等活動,對外支持?jǐn)?shù)據(jù)開放共享、數(shù)據(jù)服務(wù)等活動,從而提升數(shù)據(jù)在組織運營管理過程中的支撐輔助作用,同時實現(xiàn)數(shù)據(jù)價值的變現(xiàn)。在基本的計算能力之上,數(shù)據(jù)湖需提供批量報表、即席查詢、交互式分析、數(shù)據(jù)倉庫、機器學(xué)習(xí)等上層應(yīng)用,還需要提供自助式數(shù)據(jù)探索能力。

          如何通過數(shù)據(jù)治理實現(xiàn)數(shù)據(jù)湖商業(yè)價值

          數(shù)據(jù)湖對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。構(gòu)建開放、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。

          1. 利用數(shù)據(jù)湖智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足企業(yè)各級數(shù)據(jù)分析應(yīng)用需求。
          2. 深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。

          數(shù)據(jù)湖遇到挑戰(zhàn)

          數(shù)據(jù)湖本身是一個中心化的存儲,能夠存儲任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖的優(yōu)勢就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來。當(dāng)部署了數(shù)據(jù)湖之后,數(shù)據(jù)治理問題將會接踵而至,比如從數(shù)據(jù)湖到數(shù)據(jù)湖,如何將數(shù)據(jù)進(jìn)行分流、湖的數(shù)據(jù)如何進(jìn)行整理等。

          數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過過整理、清晰易懂的。而數(shù)據(jù)湖的概念是不經(jīng)處理直接進(jìn)行堆砌,那么數(shù)據(jù)湖就有可能會變成“數(shù)據(jù)沼澤”,篩選難度會變大。由于定義不正確、信息不完整、數(shù)據(jù)陳舊或無法找到所需信息,它需要更多的元數(shù)據(jù)來理解存儲在數(shù)據(jù)湖中的數(shù)據(jù)資產(chǎn),包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)資產(chǎn)圖譜、數(shù)據(jù)敏感性、用戶喜好、數(shù)據(jù)質(zhì)量、上下文(缺乏上下文將無法用于分析)和數(shù)據(jù)價值等業(yè)務(wù)層面的理解。另外這些系統(tǒng)和應(yīng)用是技術(shù)人員開發(fā)的,由于技術(shù)人員和業(yè)務(wù)人員的思維和“語言”存在差異,這使得業(yè)務(wù)用戶獲取數(shù)據(jù)變得更加復(fù)雜和困難。

          1.避免數(shù)據(jù)沼澤

          如何讓數(shù)據(jù)湖的水保持清亮不會成為數(shù)據(jù)沼澤?“數(shù)據(jù)湖的數(shù)據(jù)不被有效使用就會成為大垃圾場。”中國有句諺語:“流水不腐,戶樞不蠹”。數(shù)據(jù)只有流動起來,才可以不成為數(shù)據(jù)沼澤,湖泊只是暫存數(shù)據(jù)河流的基地。數(shù)據(jù)流動就意味著所有的數(shù)據(jù)產(chǎn)生,最終要有它的耕種者和使用者。要讓數(shù)據(jù)有效流動起來,就要建立有效的“數(shù)據(jù)河”(Data River)。業(yè)界在數(shù)據(jù)湖的嘗試上一般都會忽視數(shù)據(jù)治理的重要性,這是很危險的,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對數(shù)據(jù)湖持續(xù)觀望的原因之一。

          2.數(shù)據(jù)智能化治理是數(shù)據(jù)湖實現(xiàn)價值必有之路

          對數(shù)據(jù)治理的需求實際更強了。因為與“預(yù)建模”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)則化等,需要通過治理工作達(dá)到數(shù)據(jù)“可用”狀態(tài),否則數(shù)據(jù)湖很可能會“腐化”成數(shù)據(jù)沼澤,浪費大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要,沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。

          考慮全面的數(shù)據(jù)湖治理,包括是誰引入的數(shù)據(jù)、誰負(fù)責(zé)數(shù)據(jù),以及數(shù)據(jù)的定義,以確保數(shù)據(jù)的妥善標(biāo)記和使用,實現(xiàn)對企業(yè)數(shù)據(jù)資源內(nèi)容層面的優(yōu)化改造和有效管控。

          數(shù)據(jù)湖的未來展望

          現(xiàn)階段數(shù)據(jù)湖更多是作為數(shù)據(jù)倉庫的補充,數(shù)據(jù)湖概念和技術(shù)還在不斷演化,不同的解決方案供應(yīng)商也在添加新的特性和功能,包括架構(gòu)標(biāo)準(zhǔn)化和互操作性、數(shù)據(jù)治理要求、數(shù)據(jù)安全性等。

          數(shù)據(jù)湖作為一種云服務(wù)隨時按需滿足對不同數(shù)據(jù)的分析、處理和存儲需求,數(shù)據(jù)湖的擴(kuò)展性,可以為用戶提供更多的實時分析,基于企業(yè)大數(shù)據(jù)的數(shù)據(jù)湖正在向支持更多類型的實時智能化服務(wù)發(fā)展,將會為企業(yè)現(xiàn)有的數(shù)據(jù)驅(qū)動型決策制定模式帶來極大改變。

          數(shù)據(jù)湖發(fā)展到現(xiàn)在,已經(jīng)成為企業(yè)數(shù)據(jù)體系的基礎(chǔ):數(shù)據(jù)庫、數(shù)倉、大數(shù)據(jù)處理、機器學(xué)習(xí)等各種數(shù)據(jù)服務(wù),都可以“一湖盡收”。在這個“上云用數(shù)賦智”時代,很多企業(yè)已經(jīng)完成上云第一步,接下來,就是如何“用數(shù)”和“賦智”。

          -END-

          往期推薦

          字節(jié)跳動涉代碼抄襲被訴陪22.74億,連錯誤的函數(shù)都搬?

          不重啟JVM,替換掉已經(jīng)加載的類,偷天換日?

          快來搶紅包!

          FGC發(fā)生頻率優(yōu)化了400倍,如何做到?

          下方二維碼關(guān)注我

          技術(shù)草根堅持分享 編程,算法,架構(gòu)

          看完文章,餓了點外賣,點擊 ??《無門檻外賣優(yōu)惠券,每天免費領(lǐng)!》

          朋友,助攻一把!點個在看
          瀏覽 60
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色综合高清在线观看视频 | 超碰在线大香蕉 172.86.93.25 | 懂色av蜜臀av粉嫩av | 国产足交网站 | 美女操逼网站免费 |