<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2020年數(shù)據(jù)術(shù)語的故事

          共 14583字,需瀏覽 30分鐘

           ·

          2021-01-22 20:50

          點擊上方藍(lán)色字體,選擇“設(shè)為星標(biāo)

          回復(fù)”資源“獲取更多資源

          2020年整個技術(shù)圈子要說話題最多的,應(yīng)該是大數(shù)據(jù)方向。新感念層出不窮,數(shù)據(jù)湖概念就是其中之一。這篇文章是關(guān)于數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)集市、數(shù)據(jù)中臺等一些列的概念和發(fā)展進(jìn)程。希望給大家?guī)硪粋€全面的感知。

          本文作者:Murkey學(xué)習(xí)之旅、開心自由天使

          本文整理:大數(shù)據(jù)技術(shù)與架構(gòu),未經(jīng)允許不得轉(zhuǎn)載。

          如今,隨著諸如互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術(shù)的不斷發(fā)展,越來越多的數(shù)據(jù)被生產(chǎn)出來-據(jù)統(tǒng)計,每天大約有超過2.5億億字節(jié)的各種各樣數(shù)據(jù)產(chǎn)生。這些數(shù)據(jù)需要被存儲起來并且能夠被方便的分析和利用。

          隨著大數(shù)據(jù)技術(shù)的不斷更新和迭代,數(shù)據(jù)管理工具得到了飛速的發(fā)展,相關(guān)概念如雨后春筍一般應(yīng)運而生,如從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺等,這些概念特別容易混淆,本文對這些名詞術(shù)語及內(nèi)涵進(jìn)行系統(tǒng)的解析,便于讀者對數(shù)據(jù)平臺相關(guān)的概念有全面的認(rèn)識。

          一、數(shù)據(jù)倉庫

          數(shù)據(jù)倉庫平臺逐步從BI報表為主到分析為主、到預(yù)測為主、再到操作智能為目標(biāo)。
          ?從過去報表發(fā)生了什么--->分析為什么過去會發(fā)生---->將來會發(fā)生什么---->什么正在發(fā)生----->讓正確的事情發(fā)生
          商務(wù)智能(BI,Business Intelligence)是一種以提供決策分析性的運營數(shù)據(jù)為目的而建立的信息系統(tǒng)。是屬于在線分析處理:On Line Analytical Processing(OLAP),將預(yù)先計算完成的匯總數(shù)據(jù),儲存于魔方數(shù)據(jù)庫(Cube) 之中,針對復(fù)雜的分析查詢,提供快速的響應(yīng)。在前10年,BI報表項目比較多,是數(shù)據(jù)倉庫項目的前期預(yù)熱項目(主要分析為主的階段,是數(shù)據(jù)倉庫的初級階段),制作一些可視化報表展現(xiàn)給管理者。
          • 它利用信息科技,將分散于企業(yè)內(nèi)、外部各種數(shù)據(jù)加以整合并轉(zhuǎn)換成知識,并依據(jù)某些特定的主題需求,進(jìn)行決策分析和運算;

          • 用戶則通過報表、圖表、多維度分析的方式,尋找解決業(yè)務(wù)問題所需要的方案;

          • 這些結(jié)果將呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知識庫自動向客戶推送。

          1.1、數(shù)據(jù)倉庫基本定義

          數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),作一有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)之進(jìn)行,并進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動,幫助建構(gòu)商業(yè)智能(BI)。
          • 所謂主題:是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。

          • 所謂集成:是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。

          • 所謂隨時間變化:是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時點到當(dāng)前各個階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。


          1.2、數(shù)據(jù)倉庫系統(tǒng)作用和定位

          數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且在恰當(dāng)?shù)臅r候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕?/span>
          ?
          圖3 數(shù)據(jù)倉庫的作用
          • 是面向企業(yè)中、高級管理進(jìn)行業(yè)務(wù)分析和績效考核的數(shù)據(jù)整合、分析和展現(xiàn)的工具;

          • 是主要用于歷史性、綜合性和深層次數(shù)據(jù)分析;

          • 數(shù)據(jù)來源是ERP(例:SAP)系統(tǒng)或其他業(yè)務(wù)系統(tǒng);

          • 能夠提供靈活、直觀、簡潔和易于操作的多維查詢分析;

          • 不是日常交易操作系統(tǒng),不能直接產(chǎn)生交易數(shù)據(jù)。


          數(shù)據(jù)倉庫針對實時數(shù)據(jù)處理,非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在業(yè)務(wù)在預(yù)警預(yù)測方面應(yīng)用相對有限。

          1.3、數(shù)據(jù)倉庫能提供什么

          圖4 數(shù)據(jù)倉庫提供價值

          1.4、數(shù)據(jù)倉庫系統(tǒng)構(gòu)成

          數(shù)據(jù)倉庫系統(tǒng)除了包含分析產(chǎn)品本身之外,還包含數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)計算、門戶展現(xiàn)、平臺管理等其它一系列的產(chǎn)品。圖5 數(shù)據(jù)倉庫產(chǎn)品構(gòu)成圖6 數(shù)據(jù)倉庫產(chǎn)品構(gòu)成
          ?

          二、數(shù)據(jù)湖

          數(shù)據(jù)湖(Data Lake)是Pentaho的CTO James Dixon提出來的(Pentaho作為一家BI公司在理念上是挺先進(jìn)的),是一種數(shù)據(jù)存儲理念——即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法。
          Pentaho首席技術(shù)官James Dixon創(chuàng)造了“數(shù)據(jù)湖”一詞。它把數(shù)據(jù)集市描述成一瓶水(清洗過的,包裝過的和結(jié)構(gòu)化易于去使用的)。數(shù)據(jù)湖更像是在自然狀態(tài)下的水。數(shù)據(jù)流從源系統(tǒng)流向這個湖。用戶可以在數(shù)據(jù)湖里校驗,取樣或完全的使用數(shù)據(jù)。
          這個也是一個不精確的定義。數(shù)據(jù)還有以下特點:
          • 從源系統(tǒng)導(dǎo)入所有的數(shù)據(jù),沒有數(shù)據(jù)流失。

          • 數(shù)據(jù)存儲時沒有經(jīng)過轉(zhuǎn)換或只是簡單的處理。

          • 數(shù)據(jù)轉(zhuǎn)換和定義schema 用于滿足分析需求。?

          ? 2.1、維基百科對數(shù)據(jù)湖的定義

          數(shù)據(jù)湖(Data Lake)是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖是以其自然格式存儲的數(shù)據(jù)的系統(tǒng)或存儲庫,通常是對象blob或文件。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,XML,JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像,音頻,視頻)。來源:維基百科。
          目前,Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),所以很多人會覺得數(shù)據(jù)湖就是Hadoop集群。數(shù)據(jù)湖是一個概念,而Hadoop是用于實現(xiàn)這個概念的技術(shù)。
          圖7 數(shù)據(jù)湖的處理架構(gòu)
          圖8 數(shù)據(jù)湖示意圖

          ? 2.2、數(shù)據(jù)湖能給企業(yè)帶來多種能力

          數(shù)據(jù)湖能給企業(yè)帶來多種能力,例如,能實現(xiàn)數(shù)據(jù)的集中式管理,在此之上,企業(yè)能挖掘出很多之前所不具備的能力。另外,數(shù)據(jù)湖結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。數(shù)據(jù)湖能從以下方面幫助到企業(yè):
          • 實現(xiàn)數(shù)據(jù)治理(data governance);

          • 通過應(yīng)用機器學(xué)習(xí)與人工智能技術(shù)實現(xiàn)商業(yè)智能;

          • 預(yù)測分析,如領(lǐng)域特定的推薦引擎;

          • 信息追蹤與一致性保障;

          • 根據(jù)對歷史的分析生成新的數(shù)據(jù)維度;

          • 有一個集中式的能存儲所有企業(yè)數(shù)據(jù)的數(shù)據(jù)中心,有利于實現(xiàn)一個針對數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù);

          • 幫助組織或企業(yè)做出更多靈活的關(guān)于企業(yè)增長的決策。


          ?3、數(shù)據(jù)倉庫與數(shù)據(jù)湖差異
          • 在儲存方面上,數(shù)據(jù)湖中數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式。存儲所有數(shù)據(jù),并且僅在分析時再進(jìn)行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。

          • 在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會對數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉庫則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。

          • 數(shù)據(jù)湖的目的就是數(shù)據(jù)湖非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會用具有預(yù)測建模和統(tǒng)計分析等功能的高級分析工具。而數(shù)據(jù)倉庫就是數(shù)據(jù)倉庫非常適用于月度報告等操作用途,因為它具有高度結(jié)構(gòu)化。

          • 在架構(gòu)中數(shù)據(jù)湖通常,在存儲數(shù)據(jù)之后定義架構(gòu)。使用較少的初始工作并提供更大的靈活性。在數(shù)據(jù)倉庫中存儲數(shù)據(jù)之前定義架構(gòu)。表1 數(shù)據(jù)倉庫和數(shù)據(jù)湖的區(qū)別

          ? 三、數(shù)據(jù)中臺

          3.1、產(chǎn)生的背景

          企業(yè)在過去信息化的歷程中形成了大量生產(chǎn)經(jīng)營及專業(yè)業(yè)務(wù)應(yīng)用成果,同時也累積了大量的企業(yè)數(shù)據(jù)資產(chǎn)。限于傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)手段,數(shù)據(jù)管理和分析能力成為信息化工作中的短板。
          企業(yè)信息系統(tǒng)眾多,系統(tǒng)管理獨立,數(shù)據(jù)存儲分散,橫向的數(shù)據(jù)共享和分析應(yīng)用僅由具體業(yè)務(wù)驅(qū)動,難以對全局?jǐn)?shù)據(jù)開展價值挖掘,從規(guī)模上和效果上都無法真正體現(xiàn)集團(tuán)龐大數(shù)據(jù)資產(chǎn)的價值。
          市場競爭和產(chǎn)業(yè)鏈日益全球化,企業(yè)不只滿足于內(nèi)部數(shù)據(jù)的分析,更要通過互聯(lián)網(wǎng)、微信、APP等新技術(shù)手段結(jié)合外部市場數(shù)據(jù)進(jìn)行整體分析。
          1)傳統(tǒng)的數(shù)據(jù)倉庫不能滿足數(shù)據(jù)分析需求
          企業(yè)在數(shù)據(jù)分析應(yīng)用方面呈現(xiàn)“五大轉(zhuǎn)變”(從統(tǒng)計分析向預(yù)測分析轉(zhuǎn)變、從單領(lǐng)域分析向跨領(lǐng)域轉(zhuǎn)變、從被動分析向主動分析轉(zhuǎn)變、從非實時向?qū)崟r分析轉(zhuǎn)變、從結(jié)構(gòu)化數(shù)據(jù)向多元化轉(zhuǎn)變),并且對統(tǒng)一的數(shù)據(jù)中臺平臺訴求強烈,對數(shù)據(jù)中臺的運算能力、核心算法、及數(shù)據(jù)全面性提出了更高的要求。
          2)數(shù)據(jù)中臺的處理架構(gòu)發(fā)生了變化
          一是以Hadoop、Spark等分布式技術(shù)和組件為核心的“計算&存儲混搭”的數(shù)據(jù)處理架構(gòu),能夠支持批量和實時的數(shù)據(jù)加載以及靈活的業(yè)務(wù)需求。
          二是數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。

          3.2、數(shù)據(jù)中臺建設(shè)是數(shù)字化轉(zhuǎn)型的支撐

          數(shù)據(jù)中臺成為熱點,“中臺”這個概念,是相對于前臺和后臺而生,是前臺和后臺的鏈接點,將業(yè)務(wù)共同的工具和技術(shù)予以沉淀。數(shù)據(jù)中臺是指數(shù)據(jù)采集交換、共享融合、組織處理、建模分析、管理治理和服務(wù)應(yīng)用于一體的綜合性數(shù)據(jù)能力平臺,在大數(shù)據(jù)生態(tài)中處于承上啟下的功能,提供面向數(shù)據(jù)應(yīng)用支撐的底座能力。
          廣義上來給數(shù)據(jù)中臺一個企業(yè)級的定義:“聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務(wù),提供給前臺以業(yè)務(wù)價值的邏輯概念”。
          圖9 數(shù)據(jù)中臺建設(shè)是數(shù)字化轉(zhuǎn)型的關(guān)鍵支撐
          中臺戰(zhàn)略核心是數(shù)據(jù)服務(wù)的共享。中臺戰(zhàn)略并不是搭建一個數(shù)據(jù)平臺,但是中臺的大部分服務(wù)都是圍繞數(shù)據(jù)而生,數(shù)據(jù)中臺是圍繞向上層應(yīng)用提供數(shù)據(jù)服務(wù)構(gòu)建的,中臺戰(zhàn)略讓數(shù)據(jù)在數(shù)據(jù)平臺和業(yè)務(wù)系統(tǒng)之間形成了一個良性的閉環(huán),也就是實現(xiàn)應(yīng)用與數(shù)據(jù)之間解藕,并實現(xiàn)緊密交互。
          • 敏捷前臺:一線作戰(zhàn)單元,強調(diào)敏捷交互及穩(wěn)定交付的組織能力建設(shè)。

          • 業(yè)務(wù)中臺:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應(yīng),產(chǎn)品化業(yè)務(wù)化,開辟全新生態(tài)。

          • 數(shù)據(jù)中臺:資產(chǎn)整合與共享,整合多維數(shù)據(jù),統(tǒng)一資產(chǎn)管理,連通數(shù)據(jù)孤島,共享數(shù)據(jù)資源,深入挖掘數(shù)據(jù),盤活資產(chǎn)價值。

          • 穩(wěn)定后臺:以共享中心建設(shè)為核心,為前中臺提供專業(yè)的內(nèi)部服務(wù)支撐。

          3.3、數(shù)據(jù)中臺定義及處理架構(gòu)
          數(shù)據(jù)中臺是指通過企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對內(nèi)優(yōu)化管理提高業(yè)務(wù),對外可以數(shù)據(jù)合作價值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺建立后,會形成數(shù)據(jù)API,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。
          圖10 數(shù)據(jù)中臺架構(gòu)圖
          數(shù)據(jù)中臺整體技術(shù)架構(gòu)上采用云計算架構(gòu)模式,將數(shù)據(jù)資源、計算資源、存儲資源充分云化,并通過多租戶技術(shù)進(jìn)行資源打包整合,并進(jìn)行開放,為用戶提供“一站式”數(shù)據(jù)服務(wù)。
          利用大數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進(jìn)行統(tǒng)一采集、計算、存儲,并使用統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行管理,將企業(yè)內(nèi)部所有數(shù)據(jù)統(tǒng)一處理形成標(biāo)準(zhǔn)化數(shù)據(jù),挖掘出對企業(yè)最有價值的數(shù)據(jù),構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫,提供一致的、高可用大數(shù)據(jù)服務(wù)。
          數(shù)據(jù)中臺不是一套軟件,也不是一個信息系統(tǒng),而是一系列數(shù)據(jù)組件的集合,企業(yè)基于自身的信息化建設(shè)基礎(chǔ)、數(shù)據(jù)基礎(chǔ)以及業(yè)務(wù)特點對數(shù)據(jù)中臺的能力進(jìn)行定義,基于能力定義利用數(shù)據(jù)組件搭建自己的數(shù)據(jù)中臺。

          ?3.4、數(shù)據(jù)中臺帶來價值

          數(shù)據(jù)中臺對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。數(shù)據(jù)中臺為解耦而生,企業(yè)建設(shè)數(shù)據(jù)中臺的最大意義就是應(yīng)用與數(shù)據(jù)解藕。這樣企業(yè)就可以不受限制地按需構(gòu)建滿足業(yè)務(wù)需求的數(shù)據(jù)應(yīng)用。
          • 構(gòu)建了開放、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。

          • 利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足集團(tuán)總部和各分子公司各級數(shù)據(jù)分析應(yīng)用需求。

          • 深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,建立大數(shù)據(jù)分析工具庫、算法服務(wù)庫,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。

          四、傳統(tǒng)數(shù)據(jù)倉庫與數(shù)據(jù)中臺的差異點
          圖11 數(shù)據(jù)中臺與傳統(tǒng)數(shù)據(jù)倉庫比較
          表2 技術(shù)路線對比
          作為工業(yè)企業(yè),一般采用混搭架構(gòu):
          表3 技術(shù)路線選型比較

          四、數(shù)據(jù)湖(Data Lake)和數(shù)據(jù)倉庫(Data Warehouses)理解誤區(qū)

          誤解一:數(shù)據(jù)倉庫和數(shù)據(jù)湖二者在架構(gòu)上只能二選一

          很多人認(rèn)為數(shù)據(jù)倉庫和數(shù)據(jù)湖在架構(gòu)上只能二選一,其實這種理解是錯誤的。數(shù)據(jù)湖和數(shù)據(jù)倉庫并不是對立關(guān)系,相反它們的并存可以互補給企業(yè)架構(gòu)帶來更多的好處。數(shù)據(jù)倉儲存儲結(jié)構(gòu)化的數(shù)據(jù),適用于快速的BI和決策支撐,而數(shù)據(jù)湖可以存儲任何格式的數(shù)據(jù),往往通過挖掘能夠發(fā)揮出數(shù)據(jù)的更大作為。所以在一些場景上二者的并存是可以給企業(yè)帶來更多效益的。

          誤解二:相對于數(shù)據(jù)湖,數(shù)據(jù)倉庫更有名更受歡迎

          人工智能(AI)和機器學(xué)習(xí)項目的成功往往需要數(shù)據(jù)湖來做支撐。因為數(shù)據(jù)湖可讓您存儲幾乎任何類型的數(shù)據(jù)而無需先準(zhǔn)備或清理,所以可以保留盡可能多的潛在價值。而數(shù)據(jù)倉庫存儲的數(shù)據(jù)都是經(jīng)過清洗,往往會丟失一些有價值的信息。
          數(shù)據(jù)倉庫雖然是這兩種中比較知名的,但是隨著數(shù)據(jù)挖掘需求的發(fā)展,數(shù)據(jù)湖的受歡迎程度可能會繼續(xù)上升。數(shù)據(jù)倉庫對于某些類型的工作負(fù)載和用例工作良好,而數(shù)據(jù)湖則是為其他類型的工作負(fù)載提供服務(wù)的另一種選擇。

          誤解三:數(shù)據(jù)倉庫易于使用,而數(shù)據(jù)湖卻很復(fù)雜

          確實,數(shù)據(jù)湖需要數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的特定技能,才能對存儲在其中的數(shù)據(jù)進(jìn)行分類和利用。數(shù)據(jù)的非結(jié)構(gòu)化性質(zhì)使那些不完全了解數(shù)據(jù)湖如何工作的人更難以訪問它。
          但是,一旦數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師建立了數(shù)據(jù)模型或管道,業(yè)務(wù)用戶就可以利用建立的數(shù)據(jù)模型以及流行的業(yè)務(wù)工具(定制或預(yù)先構(gòu)建)的來訪問和分析數(shù)據(jù),而不在乎該數(shù)據(jù)存儲在數(shù)據(jù)倉庫中還是數(shù)據(jù)湖中。

          五、數(shù)據(jù)倉庫、數(shù)據(jù)集市與數(shù)據(jù)湖的對比

          Pentaho首席技術(shù)官James Dixon創(chuàng)造了“數(shù)據(jù)湖”一詞。它把數(shù)據(jù)集市描述成一瓶水(清洗過的,包裝過的和結(jié)構(gòu)化易于去使用的)。數(shù)據(jù)湖更像是在自然狀態(tài)下的水。數(shù)據(jù)流從源系統(tǒng)流向這個湖。用戶可以在數(shù)據(jù)湖里校驗,取樣或完全的使用數(shù)據(jù)。
          這個也是一個不精確的定義。數(shù)據(jù)還有以下特點:
          • 從源系統(tǒng)導(dǎo)入所有的數(shù)據(jù),沒有數(shù)據(jù)流失。

          • 數(shù)據(jù)存儲時沒有經(jīng)過轉(zhuǎn)換或只是簡單的處理。

          • 數(shù)據(jù)轉(zhuǎn)換和定義schema 用于滿足分析需求。


          下面讓我們分析一下數(shù)據(jù)湖與數(shù)據(jù)倉庫的5個關(guān)鍵的區(qū)別。

          5.1數(shù)據(jù)湖保留全部的數(shù)據(jù)

          數(shù)據(jù)倉庫開發(fā)期間,大量的時間花費在分析數(shù)據(jù)源,理解商業(yè)處理和描述數(shù)據(jù)。結(jié)果就是為報表設(shè)計高結(jié)構(gòu)化的數(shù)據(jù)模型。這一過程大部分的工作就是來決定數(shù)據(jù)應(yīng)不應(yīng)該導(dǎo)入數(shù)據(jù)倉庫。通常情況下,如果數(shù)據(jù)不能滿足指定的問題,就不會導(dǎo)入到數(shù)據(jù)倉庫。這么做是為了簡化數(shù)據(jù)模型和節(jié)省數(shù)據(jù)存儲空間。
          相反,數(shù)據(jù)湖保留所有的數(shù)據(jù)。不僅僅是當(dāng)前正在使用的數(shù)據(jù),甚至不被用到的數(shù)據(jù)也會導(dǎo)進(jìn)來。數(shù)據(jù)會一直被保存所有我們可以回到任何時間點來做分析。
          因為數(shù)據(jù)湖使用的硬件與數(shù)據(jù)倉庫的使用的不同,使這種方法成為了可能。現(xiàn)成的服務(wù)器與便宜的存儲相結(jié)合,使數(shù)據(jù)湖擴(kuò)展到TB級和PB級非常經(jīng)濟(jì)。
          數(shù)據(jù)倉庫主要存儲來自運營系統(tǒng)的大量數(shù)據(jù),而數(shù)據(jù)湖則存儲來自更多來源的數(shù)據(jù),包括來自企業(yè)的運營系統(tǒng)和其他來源的各種原始數(shù)據(jù)資產(chǎn)集。
          由于數(shù)據(jù)湖中的數(shù)據(jù)可能不準(zhǔn)確,并且可能來自企業(yè)運營系統(tǒng)之外的來源,因此不是很適合普通的業(yè)務(wù)分析用戶;數(shù)據(jù)湖更適合數(shù)據(jù)科學(xué)家和其他數(shù)據(jù)分析專家。
          對于數(shù)據(jù)倉庫與數(shù)據(jù)湖的不同之處,你可以想象一下倉庫和湖泊的區(qū)別:倉庫存儲著來自特定來源的貨物,而湖泊的水來自河流、溪流和其他來源,并且是原始數(shù)據(jù)。
          數(shù)據(jù)倉庫供應(yīng)商包括AWS、Cloudera、IBM、谷歌、微軟、甲骨文、Teradata、SAP、SnapLogic和Snowflake等。數(shù)據(jù)湖提供商包括AWS、谷歌、Informatica、微軟、Teradata等。

          5.2.數(shù)據(jù)湖支持所有數(shù)據(jù)類型

          數(shù)據(jù)倉庫一般由從事務(wù)系統(tǒng)中提取的數(shù)據(jù)組成,并由定量度量和描述它們的屬性組成。諸如Web服務(wù)器日志,傳感器數(shù)據(jù),社交網(wǎng)絡(luò)活動,文本和圖像等非傳統(tǒng)數(shù)據(jù)源在很大程度上被忽略。這些數(shù)據(jù)類型的新用途不斷被發(fā)現(xiàn),但是消費和存儲它們可能是昂貴和困難的。
          數(shù)據(jù)湖方法包含這些非傳統(tǒng)數(shù)據(jù)類型。在數(shù)據(jù)湖中,我們保留所有數(shù)據(jù),而不考慮源和結(jié)構(gòu)。我們保持它的原始形式,并且只有在我們準(zhǔn)備好使用它時才會對其進(jìn)行轉(zhuǎn)換。這種方法被稱為“讀取模式”與數(shù)據(jù)倉庫中使用的“寫入模式”方法。

          5.3.數(shù)據(jù)庫支持所有用戶使用

          在大多數(shù)公司或組織中,80%或更多的用戶是運營人員。他們希望獲得他們的報告,查看他們的關(guān)鍵績效指標(biāo)或每天在電子表格中分割相同的數(shù)據(jù)集。數(shù)據(jù)倉庫通常是這些用戶的理想選擇,因為它結(jié)構(gòu)良好,易于使用和理解,并且專門用于回答他們的問題。
          接下來的10%左右,對數(shù)據(jù)做更多的分析。他們使用數(shù)據(jù)倉庫作為數(shù)據(jù)源,但通常會返回源系統(tǒng)以獲取倉庫中未包含的數(shù)據(jù),有時還會從組織外部導(dǎo)入數(shù)據(jù)。他們最喜歡的工具是電子表格,他們創(chuàng)建的新報告通常分布在整個組織中。數(shù)據(jù)倉庫是他們的數(shù)據(jù)源,但他們經(jīng)常超出其范圍
          最后,最后幾個百分比的用戶做了深入的分析。他們可能會根據(jù)研究創(chuàng)建全新的數(shù)據(jù)源。他們混合了許多不同類型的數(shù)據(jù),并提出了全新的問題來回答。這些用戶可能會使用數(shù)據(jù)倉庫,但往往會忽略它,因為他們通常被控超越其功能。這些用戶包括數(shù)據(jù)科學(xué)家,他們可能會使用高級分析工具和功能,如統(tǒng)計分析和預(yù)測建模。
          數(shù)據(jù)湖方法同樣支持所有這些用戶。數(shù)據(jù)科學(xué)家可以去湖邊工作,并使用他們需要的非常龐大和多樣化的數(shù)據(jù)集,而其他用戶則可以使用更為結(jié)構(gòu)化的數(shù)據(jù)視圖來提供他們使用的數(shù)據(jù)。

          5.4.數(shù)據(jù)湖很容易適應(yīng)變化

          關(guān)于數(shù)據(jù)倉庫的主要抱怨之一是需要多長時間來改變它們。在開發(fā)過程中花費大量時間來獲得倉庫的結(jié)構(gòu)。一個好的倉庫設(shè)計可以適應(yīng)變化,但由于數(shù)據(jù)加載過程的復(fù)雜性以及為簡化分析和報告所做的工作,這些更改必然會消耗一些開發(fā)人員資源并需要一些時間。
          許多業(yè)務(wù)問題都迫不及待地讓數(shù)據(jù)倉庫團(tuán)隊適應(yīng)他們的系統(tǒng)來回答問題。日益增長的對更快答案的需求促成了自助式商業(yè)智能的概念。
          另一方面,在數(shù)據(jù)湖中,由于所有數(shù)據(jù)都以其原始形式存儲,并且始終可供需要使用它的人訪問,因此用戶有權(quán)超越倉庫結(jié)構(gòu)以新穎方式探索數(shù)據(jù)并回答它們問題在他們的步伐。
          如果一個探索的結(jié)果被證明是有用的并且有重復(fù)的愿望,那么可以應(yīng)用更正式的模式,并且可以開發(fā)自動化和可重用性來幫助將結(jié)果擴(kuò)展到更廣泛的受眾。如果確定結(jié)果無用,則可以丟棄該結(jié)果,并且不會對數(shù)據(jù)結(jié)構(gòu)進(jìn)行任何更改,也不會消耗開發(fā)資源。

          5.5.數(shù)據(jù)湖支持快速洞察數(shù)據(jù)

          最后的區(qū)別實際上是其他四個的結(jié)果。由于數(shù)據(jù)湖包含所有數(shù)據(jù)和數(shù)據(jù)類型,因為它使用戶能夠在數(shù)據(jù)轉(zhuǎn)換,清理和結(jié)構(gòu)化之前訪問數(shù)據(jù),從而使用戶能夠比傳統(tǒng)數(shù)據(jù)倉庫方法更快地獲得結(jié)果。
          但是,這種對數(shù)據(jù)的早期訪問是有代價的。通常由數(shù)據(jù)倉庫開發(fā)團(tuán)隊完成的工作可能無法完成分析所需的部分或全部數(shù)據(jù)源。這讓駕駛座位的用戶可以根據(jù)需要探索和使用數(shù)據(jù),但上述第一層業(yè)務(wù)用戶可能不希望這樣做。他們?nèi)匀恢幌胍麄兊膱蟾婧蚄PI。
          在數(shù)據(jù)湖中,這些操作報告的使用者將利用更加結(jié)構(gòu)化的數(shù)據(jù)湖中數(shù)據(jù)的結(jié)構(gòu)視圖,這些視圖與數(shù)據(jù)倉庫中以前一直存在的數(shù)據(jù)相似。不同之處在于,這些視圖主要存在于位于湖泊中的數(shù)據(jù)之上的元數(shù)據(jù),而不是需要開發(fā)人員更改的物理剛性表格。

          5.6 數(shù)據(jù)倉庫vs.數(shù)據(jù)集市

          數(shù)據(jù)集市和數(shù)據(jù)倉庫經(jīng)常會被混淆,但兩者的用途明顯不同。
          數(shù)據(jù)集市通常是數(shù)據(jù)倉庫的子集;它等數(shù)據(jù)通常來自數(shù)據(jù)倉庫 – 盡管還可以來自其他來源。數(shù)據(jù)集市的數(shù)據(jù)專門針對特定的用戶社區(qū)(例如銷售團(tuán)隊),以便他們能夠快速找到所需的數(shù)據(jù)。通常,數(shù)據(jù)保存在那里用于特定用途,例如財務(wù)分析。
          數(shù)據(jù)集市也比數(shù)據(jù)倉庫小得多 – 它們可以容納數(shù)十千兆字節(jié),相比之下,數(shù)據(jù)倉庫可以存儲數(shù)百千兆字節(jié)到PB級數(shù)據(jù),并可用于數(shù)據(jù)處理。
          數(shù)據(jù)集市可從現(xiàn)有數(shù)據(jù)倉庫或其他數(shù)據(jù)源系統(tǒng)構(gòu)建,你只需設(shè)計和構(gòu)建數(shù)據(jù)庫表,使用相關(guān)數(shù)據(jù)填充數(shù)據(jù)庫表并決定誰可以訪問數(shù)據(jù)集即可。

          5.7?數(shù)據(jù)倉庫vs.ODS

          操作數(shù)據(jù)存儲(ODS)是一種數(shù)據(jù)庫,用作所有數(shù)據(jù)的臨時存儲區(qū)域,這些數(shù)據(jù)即將進(jìn)入數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)處理。我們可以將其想象成倉庫裝卸碼頭,貨物在此處交付、檢查和驗證。在ODS中,數(shù)據(jù)在進(jìn)入倉庫前可以被清理、檢查(因為冗余目的),也可檢查是否符合業(yè)務(wù)規(guī)則。
          在ODS中,我們可以對數(shù)據(jù)進(jìn)行查詢,但是數(shù)據(jù)是臨時的,因此它僅提供簡單信息查詢,例如正在進(jìn)行的客戶訂單狀態(tài)。
          ODS通常運行在關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)或Hadoop平臺。ODS中的數(shù)據(jù)通常通過數(shù)據(jù)集成和數(shù)據(jù)提取工具(例如Attunity Replicate或Hortonworks DataFlow)提供。

          5.8?關(guān)系型數(shù)據(jù)庫vs.數(shù)據(jù)倉庫和數(shù)據(jù)湖

          數(shù)據(jù)倉庫、數(shù)據(jù)湖與關(guān)系數(shù)據(jù)庫系統(tǒng)之間的主要區(qū)別在于,關(guān)系數(shù)據(jù)庫用于存儲和整理來自單個來源(例如事務(wù)系統(tǒng))的結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉庫則用于存儲來自多個來源的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖的不同之處在于它可存儲非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。
          關(guān)系數(shù)據(jù)庫創(chuàng)建起來相對簡單,可用于存儲和整理實時數(shù)據(jù),例如交易數(shù)據(jù)等。關(guān)系數(shù)據(jù)庫的缺點是它們不支持非結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)或現(xiàn)在不斷生成的大量數(shù)據(jù)。這使得我們只能在數(shù)據(jù)倉庫與數(shù)據(jù)湖間做出選擇。盡管如此,很多企業(yè)仍然繼續(xù)依賴關(guān)系數(shù)據(jù)庫來完成運營數(shù)據(jù)分析或趨勢分析等任務(wù)。
          內(nèi)部或云端可用的關(guān)系數(shù)據(jù)庫包括Microsoft SQL Server、Oracle數(shù)據(jù)庫、MySQL和IBM Db2、以及Amazon Relational Database Service、Google Cloud Spanner等。

          六、小結(jié)

          一、數(shù)據(jù)湖
          由數(shù)據(jù)驅(qū)動的決策非常流行。從數(shù)據(jù)科學(xué),機器學(xué)習(xí)和高級分析到實時儀表板,決策者都需要數(shù)據(jù)來幫助做出決策。
          該數(shù)據(jù)需要一個家,而數(shù)據(jù)湖是創(chuàng)建該家的首選解決方案。該術(shù)語由Pentaho的CTO James Dixon發(fā)明并首次描述,他在博客中寫道:“如果您將數(shù)據(jù)集市視為瓶裝水的存儲庫,經(jīng)過清洗,包裝和結(jié)構(gòu)化以便于使用,那么數(shù)據(jù)湖就很大了。水體處于更自然的狀態(tài)。數(shù)據(jù)湖的內(nèi)容從源頭流入整個湖中,并且該湖的各種用戶可以來檢查,潛水或取樣。”斜體關(guān)鍵點是:數(shù)據(jù)在原始數(shù)據(jù)中格式和格式(自然或原始數(shù)據(jù))。
          數(shù)據(jù)由各種用戶使用,即由大型用戶社區(qū)訪問和訪問。
          企業(yè)大數(shù)據(jù)湖彌合了現(xiàn)代互聯(lián)網(wǎng)公司隨心所欲的文化之間的鴻溝,在現(xiàn)代文化中,數(shù)據(jù)是所有實踐的核心,每個人都是分析師,大多數(shù)人都可以編寫和滾動自己的數(shù)據(jù)集,而企業(yè)數(shù)據(jù)倉庫則以數(shù)據(jù)為代表。 貴重商品,由專業(yè)的IT人員精心照管,并以精心準(zhǔn)備的報告和分析數(shù)據(jù)集的形式提供。
          為了成功,企業(yè)數(shù)據(jù)湖必須提供三個新功能:
          1.經(jīng)濟(jì)高效,可擴(kuò)展的存儲和計算功能,因此可以存儲和分析大量數(shù)據(jù),而不會產(chǎn)生高昂的計算成本
          2.經(jīng)濟(jì)高效的數(shù)據(jù)訪問和治理,因此每個人都可以查找和使用正確的數(shù)據(jù),而不會因編程和手動臨時數(shù)據(jù)獲取而造成昂貴的人力成本。
          3.分層,受控制的訪問權(quán)限,因此可以根據(jù)不同用戶的需求和技能水平以及適用的數(shù)據(jù)治理策略為不同的用戶提供不同級別的數(shù)據(jù).
          數(shù)據(jù)湖成熟度:數(shù)據(jù)湖是一個相對較新的概念,因此定義您可能會觀察到的某些成熟階段并清楚地闡明這些階段之間的差異非常有用:數(shù)據(jù)水坑基本上是建立的單一目的或單一項目數(shù)據(jù)集市使用大數(shù)據(jù)技術(shù)。它通常是采用大數(shù)據(jù)技術(shù)的第一步。數(shù)據(jù)水坑中的數(shù)據(jù)是出于單個項目或團(tuán)隊的目的而加載的。它通常是眾所周知的,并且被人們所理解,使用大數(shù)據(jù)技術(shù)代替?zhèn)鹘y(tǒng)數(shù)據(jù)倉庫的原因是為了降低成本并提供更好的性能。
          數(shù)據(jù)池是數(shù)據(jù)水坑的集合。它可能像設(shè)計不良的數(shù)據(jù)倉庫,實際上是同一位置的數(shù)據(jù)集市的集合,或者可能是現(xiàn)有數(shù)據(jù)倉庫的卸載。雖然較低的技術(shù)成本和更好的可伸縮性是顯而易見的誘人好處,但是這些結(jié)構(gòu)仍需要很高的IT參與度。此外,數(shù)據(jù)池僅將數(shù)據(jù)限制為項目所需的數(shù)據(jù),并且僅將數(shù)據(jù)用于需要它的項目。鑒于高昂的IT成本和有限的數(shù)據(jù)可用性,數(shù)據(jù)池并不能真正幫助我們實現(xiàn)使數(shù)據(jù)使用民主化或推動業(yè)務(wù)用戶自助服務(wù)和數(shù)據(jù)驅(qū)動型決策的目標(biāo)。
          數(shù)據(jù)湖在兩個重要方面不同于數(shù)據(jù)池。首先,它支持自助服務(wù),使業(yè)務(wù)用戶能夠查找和使用他們想要使用的數(shù)據(jù)集,而不必依賴IT部門的幫助。其次,它旨在包含業(yè)務(wù)用戶可能需要的數(shù)據(jù),即使當(dāng)時沒有任何項目需要它。
          數(shù)據(jù)海洋將自助數(shù)據(jù)和數(shù)據(jù)驅(qū)動的決策擴(kuò)展到所有企業(yè)數(shù)據(jù),無論它在哪里,無論是否將其加載到數(shù)據(jù)湖中。
          下圖說明了這些概念之間的區(qū)別。隨著成熟度從水坑到池塘到從湖泊到海洋的增長,數(shù)據(jù)量和用戶數(shù)量都在增長,有時會非常大。使用模式已從高度接觸的IT參與之一轉(zhuǎn)變?yōu)樽灾?wù),并且數(shù)據(jù)的擴(kuò)展范圍超出了立即項目所需的范圍。二.數(shù)據(jù)倉庫:
          數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時間、成本、質(zhì)量以及控制。
          1、數(shù)據(jù)倉庫是面向主題的;操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。
          2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫;
          數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
          數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
          數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到當(dāng)前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
          3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
          4、數(shù)據(jù)倉庫是隨時間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。
          5、匯總的。操作性數(shù)據(jù)映射成決策可用的格式。
          6、大容量。時間序列數(shù)據(jù)集合通常都非常大。
          7、非規(guī)范化的。Dw數(shù)據(jù)可以是而且經(jīng)常是冗余的。
          8、元數(shù)據(jù)。將描述數(shù)據(jù)的數(shù)據(jù)保存起來。
          9、數(shù)據(jù)源。數(shù)據(jù)來自內(nèi)部的和外部的非集成操作系統(tǒng)。
          數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫”。數(shù)據(jù)倉庫的方案建設(shè)的目的,是為前端查詢和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應(yīng)用服務(wù),數(shù)據(jù)倉庫往往有如下幾點特點:
          1.效率足夠高。數(shù)據(jù)倉庫的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時甚至12小時內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設(shè)計不好的數(shù)據(jù)倉庫經(jīng)常會出問題,延遲1-3日才能給出數(shù)據(jù),顯然不行的。
          2.數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉庫所提供的各種信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉庫流程通常分為多個步驟,包括數(shù)據(jù)清洗,裝載,查詢,展現(xiàn)等等,復(fù)雜的架構(gòu)會更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶看到錯誤的信息就可能導(dǎo)致分析出錯誤的決策,造成損失,而不是效益。
          3.擴(kuò)展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設(shè)計復(fù)雜,是因為考慮到了未來3-5年的擴(kuò)展性,這樣的話,未來不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng),就能很穩(wěn)定運行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運行不起來了。
          從上面的介紹中可以看出,數(shù)據(jù)倉庫技術(shù)可以將企業(yè)多年積累的數(shù)據(jù)喚醒,不僅為企業(yè)管理好這些海量數(shù)據(jù),而且挖掘數(shù)據(jù)潛在的價值,從而成為通信企業(yè)運營維護(hù)系統(tǒng)的亮點之一。
          廣義的說,基于數(shù)據(jù)倉庫的決策支持系統(tǒng)由三個部件組成:數(shù)據(jù)倉庫技術(shù),聯(lián)機分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中數(shù)據(jù)倉庫技術(shù)是系統(tǒng)的核心。
          4.面向主題
          操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的,是一個抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。每一個主題對應(yīng)一個宏觀的分析領(lǐng)域。數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
          三、數(shù)據(jù)沼澤(The Data Swamp):
          沒有足夠的信息,很難區(qū)分湖泊中的數(shù)據(jù)。它不再是沼澤,而是泥坑。一切看起來都一樣,您無法分辨出好消息還是壞消息。
          清理湖面并不是要使湖面看起來更加井井有條,而是要使湖面看起來平整無奇,而是讓湖面看起來像沼澤一樣。當(dāng)然,我們不能回到模型中,在所有模型都可用之前必須對其進(jìn)行完整描述,就像許多數(shù)據(jù)倉庫一樣(而且我們都知道故事的結(jié)局)。取而代之的是,在人們最初使用該數(shù)據(jù)時收集其元數(shù)據(jù)并不斷收集更多信息的過程是確保靈活性并抓住重用和共享機會的最佳方法。
          這種方法還可以確保了解數(shù)據(jù)的人(因為他們生產(chǎn)和使用數(shù)據(jù))描述和記錄有關(guān)數(shù)據(jù)的信息。人們之所以愿意這樣做,是因為他們看到了價值,因為有了這些信息,也可以更輕松地查找和使用湖泊中的數(shù)據(jù)。因此,這是一次公平的交流:輕松訪問有關(guān)數(shù)據(jù)的知識以及如何使用它們。目前,這是唯一可以自然擴(kuò)展的可行方法。
          許多技術(shù)有望解決數(shù)據(jù)沼澤問題。盡管它們確實解決了問題的各個方面,但主要的挑戰(zhàn)是確??梢钥吹綌?shù)據(jù)集的真實性,而不是將其隱藏在看似平靜的表面之下。為了應(yīng)對這一挑戰(zhàn),組織必須使他們的數(shù)據(jù)在湖泊中可見,并將發(fā)現(xiàn)數(shù)據(jù)的過程(通過數(shù)據(jù)目錄)與收集有關(guān)數(shù)據(jù)的信息的過程聯(lián)系起來。沒有這種聯(lián)系,數(shù)據(jù)湖可能看起來很平靜,但是它將是一片毫無特色的廣闊區(qū)域,而不是豐富多樣的景觀。
          四、數(shù)據(jù)集市:data marts
          數(shù)據(jù)集市(Data Mart) ,也叫數(shù)據(jù)市場,數(shù)據(jù)集市就是滿足特定的部門或者用戶的需求,按照多維的方式進(jìn)行存儲,包括定義維度、需要計算的指標(biāo)、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。 從范圍上來說,數(shù)據(jù)是從企業(yè)范圍的數(shù)據(jù)庫、數(shù)據(jù)倉庫,或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。數(shù)據(jù)中心的重點就在于它迎合了專業(yè)用戶群體的特殊需求,在分析、內(nèi)容、表現(xiàn),以及易用方面。數(shù)據(jù)中心的用戶希望數(shù)據(jù)是由他們熟悉的術(shù)語表現(xiàn)的。
          數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集,他主要面向部門級業(yè)務(wù),并且只面向某個特定的主題。為了解決靈活性與性能之間的矛盾,數(shù)據(jù)集市就是數(shù)據(jù)倉庫體系結(jié)構(gòu)中增加的一種小型的部門或工作組級別的數(shù)據(jù)倉庫。數(shù)據(jù)集市存儲為特定用戶預(yù)先計算好的數(shù)據(jù),從而滿足用戶對性能的需求。數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。
          1.?dāng)?shù)據(jù)集市的特征包括規(guī)模小。
          2.有特定的應(yīng)用。
          3.面向部門。
          4.由業(yè)務(wù)部門定義、設(shè)計和開發(fā)。
          5.業(yè)務(wù)部門管理和維護(hù)。
          6.能快速實現(xiàn)。
          7.購買較便宜。
          8.投資快速回收。
          9.工具集的緊密集成。
          10.提供更詳細(xì)的、預(yù)先存在的、數(shù)據(jù)倉庫的摘要子集。
          11.可升級到完整的數(shù)據(jù)倉庫。
          五、數(shù)據(jù)水坑(Data Puddles):
          數(shù)據(jù)水坑通常是為小型團(tuán)隊或?qū)iT用例而構(gòu)建的。這些“水坑”是單個團(tuán)隊擁有的中等規(guī)模的數(shù)據(jù)集合,通常由業(yè)務(wù)部門使用影子IT在云中構(gòu)建。在數(shù)據(jù)倉庫時代,每個團(tuán)隊都習(xí)慣于為其每個項目構(gòu)建一個關(guān)系數(shù)據(jù)集市。除了使用大數(shù)據(jù)技術(shù)外,構(gòu)建數(shù)據(jù)水坑的過程非常相似。通常,數(shù)據(jù)水坑是為需要大數(shù)據(jù)的功能和規(guī)模的項目構(gòu)建的。許多高級分析項目,例如那些關(guān)注客戶流失或預(yù)測性維護(hù)的項目,都屬于此類。
          有時,構(gòu)建數(shù)據(jù)水坑是為了幫助IT人員進(jìn)行自動化的計算密集型和數(shù)據(jù)密集型流程,例如提取,轉(zhuǎn)換,加載(ETL)卸載,這些將在后面的章節(jié)中詳細(xì)介紹,在這些章節(jié)中,所有轉(zhuǎn)換工作都從數(shù)據(jù)倉庫或倉庫中轉(zhuǎn)移。昂貴的ETL工具到大數(shù)據(jù)平臺。另一個常見用途是通過提供一個稱為“沙箱”的工作區(qū)域為單個團(tuán)隊提供服務(wù),數(shù)據(jù)科學(xué)家可以在其中進(jìn)行實驗。

          數(shù)據(jù)水坑通常范圍較小,數(shù)據(jù)種類有限-它們由小型專用數(shù)據(jù)流填充,并且構(gòu)建和維護(hù)它們需要技術(shù)團(tuán)隊或IT部門的大力參與。

          數(shù)據(jù)池(Data Ponds):數(shù)據(jù)池是數(shù)據(jù)水坑的集合。正如您可以將數(shù)據(jù)池視為使用大數(shù)據(jù)技術(shù)構(gòu)建的數(shù)據(jù)集市一樣,您也可以將數(shù)據(jù)池視為使用大數(shù)據(jù)技術(shù)構(gòu)建的數(shù)據(jù)倉庫。隨著更多的水坑被添加到大數(shù)據(jù)平臺,它可能有機地存在。創(chuàng)建數(shù)據(jù)池的另一種流行方法是將數(shù)據(jù)倉庫卸載。

          與ETL卸載不同,ETL卸載使用大數(shù)據(jù)技術(shù)來執(zhí)行填充數(shù)據(jù)倉庫所需的一些處理,此處的想法是將數(shù)據(jù)倉庫中的所有數(shù)據(jù)加載到大數(shù)據(jù)平臺中。愿景通常是最終擺脫數(shù)據(jù)倉庫以節(jié)省成本并提高性能,因為大數(shù)據(jù)平臺比關(guān)系數(shù)據(jù)庫便宜得多且可伸縮性更高。但是,僅卸載數(shù)據(jù)倉庫并不能使分析人員訪問原始數(shù)據(jù)。由于仍然保持適用于數(shù)據(jù)倉庫的嚴(yán)格體系結(jié)構(gòu)和治理,因此組織無法解決數(shù)據(jù)倉庫的所有挑戰(zhàn),例如冗長而昂貴的變更周期,復(fù)雜的轉(zhuǎn)換以及將人工編碼作為所有報告的基礎(chǔ)。最后,分析人員通常不喜歡從具有閃電般快速查詢的精細(xì)數(shù)據(jù)倉庫遷移到可預(yù)測性差得多的大數(shù)據(jù)平臺,在該平臺上,大批查詢的運行速度可能比數(shù)據(jù)倉庫中的運行速度快,但更典型的小型查詢可能需要幾分鐘的時間。數(shù)據(jù)池的一些典型局限性:缺乏可預(yù)測性,敏捷性以及無法訪問未經(jīng)處理的原始數(shù)據(jù)。

          六. 數(shù)據(jù)孤島(data silos):

          企業(yè)發(fā)展到一定階段,出現(xiàn)多個事業(yè)部,每個事業(yè)部都有各自數(shù)據(jù),事業(yè)部之間的數(shù)據(jù)往往都各自存儲,各自定義。每個事業(yè)部的數(shù)據(jù)就像一個個孤島一樣無法(或者極其困難)和企業(yè)內(nèi)部的其他數(shù)據(jù)進(jìn)行連接互動。”我們把這樣的情況稱為數(shù)據(jù)孤島。簡單說就是數(shù)據(jù)間缺乏關(guān)聯(lián)性,數(shù)據(jù)庫彼此無法兼容。

          專業(yè)人士把數(shù)據(jù)孤島分為物理性和邏輯性兩種。物理性的數(shù)據(jù)孤島指的是,數(shù)據(jù)在不同部門相互獨立存儲,獨立維護(hù),彼此間相互孤立,形成了物理上的孤島。邏輯性的數(shù)據(jù)孤島指的是,不同部門站在自己的角度對數(shù)據(jù)進(jìn)行理解和定義,使得一些相同的數(shù)據(jù)被賦予了不同的含義,無形中加大了跨部門數(shù)據(jù)合作的溝通成本。
          數(shù)據(jù)傾斜?Spark 3.0 AQE專治各種不服
          數(shù)據(jù)湖VS數(shù)據(jù)倉庫?湖倉一體了解一下
          數(shù)據(jù)湖 | Apache Hudi 設(shè)計與架構(gòu)最強解讀
          數(shù)據(jù)湖 | 一文讀懂Data Lake的概念、特征、架構(gòu)與案例
          重磅 | Delta Lake正式加入Linux基金會,重塑數(shù)據(jù)湖存儲標(biāo)準(zhǔn)


          歡迎點贊+收藏+轉(zhuǎn)發(fā)朋友圈素質(zhì)三連

          文章不錯?點個【在看】吧!?
          瀏覽 45
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天干天天干天天日 | 暖暖高清视频日本中文www | 一卡二卡高清无码 | 羽月希产后再次复出电影 | 国产色婷婷精品综合在线播放 |