2020年數(shù)據(jù)術(shù)語的故事
點擊上方藍(lán)色字體,選擇“設(shè)為星標(biāo)”
回復(fù)”資源“獲取更多資源

2020年整個技術(shù)圈子要說話題最多的,應(yīng)該是大數(shù)據(jù)方向。新感念層出不窮,數(shù)據(jù)湖概念就是其中之一。這篇文章是關(guān)于數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)集市、數(shù)據(jù)中臺等一些列的概念和發(fā)展進(jìn)程。希望給大家?guī)硪粋€全面的感知。
本文作者:Murkey學(xué)習(xí)之旅、開心自由天使
本文整理:大數(shù)據(jù)技術(shù)與架構(gòu),未經(jīng)允許不得轉(zhuǎn)載。
如今,隨著諸如互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術(shù)的不斷發(fā)展,越來越多的數(shù)據(jù)被生產(chǎn)出來-據(jù)統(tǒng)計,每天大約有超過2.5億億字節(jié)的各種各樣數(shù)據(jù)產(chǎn)生。這些數(shù)據(jù)需要被存儲起來并且能夠被方便的分析和利用。
隨著大數(shù)據(jù)技術(shù)的不斷更新和迭代,數(shù)據(jù)管理工具得到了飛速的發(fā)展,相關(guān)概念如雨后春筍一般應(yīng)運而生,如從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺等,這些概念特別容易混淆,本文對這些名詞術(shù)語及內(nèi)涵進(jìn)行系統(tǒng)的解析,便于讀者對數(shù)據(jù)平臺相關(guān)的概念有全面的認(rèn)識。
一、數(shù)據(jù)倉庫

它利用信息科技,將分散于企業(yè)內(nèi)、外部各種數(shù)據(jù)加以整合并轉(zhuǎn)換成知識,并依據(jù)某些特定的主題需求,進(jìn)行決策分析和運算;
用戶則通過報表、圖表、多維度分析的方式,尋找解決業(yè)務(wù)問題所需要的方案;
這些結(jié)果將呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知識庫自動向客戶推送。
1.1、數(shù)據(jù)倉庫基本定義
所謂主題:是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。
所謂集成:是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。
所謂隨時間變化:是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時點到當(dāng)前各個階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。


1.2、數(shù)據(jù)倉庫系統(tǒng)作用和定位
?是面向企業(yè)中、高級管理進(jìn)行業(yè)務(wù)分析和績效考核的數(shù)據(jù)整合、分析和展現(xiàn)的工具;
是主要用于歷史性、綜合性和深層次數(shù)據(jù)分析;
數(shù)據(jù)來源是ERP(例:SAP)系統(tǒng)或其他業(yè)務(wù)系統(tǒng);
能夠提供靈活、直觀、簡潔和易于操作的多維查詢分析;
不是日常交易操作系統(tǒng),不能直接產(chǎn)生交易數(shù)據(jù)。
1.3、數(shù)據(jù)倉庫能提供什么

1.4、數(shù)據(jù)倉庫系統(tǒng)構(gòu)成
?
二、數(shù)據(jù)湖
從源系統(tǒng)導(dǎo)入所有的數(shù)據(jù),沒有數(shù)據(jù)流失。
數(shù)據(jù)存儲時沒有經(jīng)過轉(zhuǎn)換或只是簡單的處理。
數(shù)據(jù)轉(zhuǎn)換和定義schema 用于滿足分析需求。?
? 2.1、維基百科對數(shù)據(jù)湖的定義


? 2.2、數(shù)據(jù)湖能給企業(yè)帶來多種能力
實現(xiàn)數(shù)據(jù)治理(data governance);
通過應(yīng)用機器學(xué)習(xí)與人工智能技術(shù)實現(xiàn)商業(yè)智能;
預(yù)測分析,如領(lǐng)域特定的推薦引擎;
信息追蹤與一致性保障;
根據(jù)對歷史的分析生成新的數(shù)據(jù)維度;
有一個集中式的能存儲所有企業(yè)數(shù)據(jù)的數(shù)據(jù)中心,有利于實現(xiàn)一個針對數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù);
幫助組織或企業(yè)做出更多靈活的關(guān)于企業(yè)增長的決策。
在儲存方面上,數(shù)據(jù)湖中數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式。存儲所有數(shù)據(jù),并且僅在分析時再進(jìn)行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。
在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會對數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉庫則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。
數(shù)據(jù)湖的目的就是數(shù)據(jù)湖非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會用具有預(yù)測建模和統(tǒng)計分析等功能的高級分析工具。而數(shù)據(jù)倉庫就是數(shù)據(jù)倉庫非常適用于月度報告等操作用途,因為它具有高度結(jié)構(gòu)化。
在架構(gòu)中數(shù)據(jù)湖通常,在存儲數(shù)據(jù)之后定義架構(gòu)。使用較少的初始工作并提供更大的靈活性。在數(shù)據(jù)倉庫中存儲數(shù)據(jù)之前定義架構(gòu)。表1 數(shù)據(jù)倉庫和數(shù)據(jù)湖的區(qū)別

? 三、數(shù)據(jù)中臺
3.1、產(chǎn)生的背景
3.2、數(shù)據(jù)中臺建設(shè)是數(shù)字化轉(zhuǎn)型的支撐

敏捷前臺:一線作戰(zhàn)單元,強調(diào)敏捷交互及穩(wěn)定交付的組織能力建設(shè)。
業(yè)務(wù)中臺:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應(yīng),產(chǎn)品化業(yè)務(wù)化,開辟全新生態(tài)。
數(shù)據(jù)中臺:資產(chǎn)整合與共享,整合多維數(shù)據(jù),統(tǒng)一資產(chǎn)管理,連通數(shù)據(jù)孤島,共享數(shù)據(jù)資源,深入挖掘數(shù)據(jù),盤活資產(chǎn)價值。
穩(wěn)定后臺:以共享中心建設(shè)為核心,為前中臺提供專業(yè)的內(nèi)部服務(wù)支撐。

?3.4、數(shù)據(jù)中臺帶來價值
構(gòu)建了開放、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。
利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足集團(tuán)總部和各分子公司各級數(shù)據(jù)分析應(yīng)用需求。
深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,建立大數(shù)據(jù)分析工具庫、算法服務(wù)庫,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。



四、數(shù)據(jù)湖(Data Lake)和數(shù)據(jù)倉庫(Data Warehouses)理解誤區(qū)

誤解一:數(shù)據(jù)倉庫和數(shù)據(jù)湖二者在架構(gòu)上只能二選一
誤解二:相對于數(shù)據(jù)湖,數(shù)據(jù)倉庫更有名更受歡迎
誤解三:數(shù)據(jù)倉庫易于使用,而數(shù)據(jù)湖卻很復(fù)雜
五、數(shù)據(jù)倉庫、數(shù)據(jù)集市與數(shù)據(jù)湖的對比
從源系統(tǒng)導(dǎo)入所有的數(shù)據(jù),沒有數(shù)據(jù)流失。
數(shù)據(jù)存儲時沒有經(jīng)過轉(zhuǎn)換或只是簡單的處理。
數(shù)據(jù)轉(zhuǎn)換和定義schema 用于滿足分析需求。

5.1數(shù)據(jù)湖保留全部的數(shù)據(jù)
5.2.數(shù)據(jù)湖支持所有數(shù)據(jù)類型
5.3.數(shù)據(jù)庫支持所有用戶使用
5.4.數(shù)據(jù)湖很容易適應(yīng)變化
5.5.數(shù)據(jù)湖支持快速洞察數(shù)據(jù)

5.6 數(shù)據(jù)倉庫vs.數(shù)據(jù)集市
5.7?數(shù)據(jù)倉庫vs.ODS
5.8?關(guān)系型數(shù)據(jù)庫vs.數(shù)據(jù)倉庫和數(shù)據(jù)湖
六、小結(jié)

二.數(shù)據(jù)倉庫:2.有特定的應(yīng)用。
3.面向部門。
4.由業(yè)務(wù)部門定義、設(shè)計和開發(fā)。
5.業(yè)務(wù)部門管理和維護(hù)。
6.能快速實現(xiàn)。
7.購買較便宜。
8.投資快速回收。
9.工具集的緊密集成。
10.提供更詳細(xì)的、預(yù)先存在的、數(shù)據(jù)倉庫的摘要子集。
11.可升級到完整的數(shù)據(jù)倉庫。
有時,構(gòu)建數(shù)據(jù)水坑是為了幫助IT人員進(jìn)行自動化的計算密集型和數(shù)據(jù)密集型流程,例如提取,轉(zhuǎn)換,加載(ETL)卸載,這些將在后面的章節(jié)中詳細(xì)介紹,在這些章節(jié)中,所有轉(zhuǎn)換工作都從數(shù)據(jù)倉庫或倉庫中轉(zhuǎn)移。昂貴的ETL工具到大數(shù)據(jù)平臺。另一個常見用途是通過提供一個稱為“沙箱”的工作區(qū)域為單個團(tuán)隊提供服務(wù),數(shù)據(jù)科學(xué)家可以在其中進(jìn)行實驗。
數(shù)據(jù)水坑通常范圍較小,數(shù)據(jù)種類有限-它們由小型專用數(shù)據(jù)流填充,并且構(gòu)建和維護(hù)它們需要技術(shù)團(tuán)隊或IT部門的大力參與。
數(shù)據(jù)池(Data Ponds):數(shù)據(jù)池是數(shù)據(jù)水坑的集合。正如您可以將數(shù)據(jù)池視為使用大數(shù)據(jù)技術(shù)構(gòu)建的數(shù)據(jù)集市一樣,您也可以將數(shù)據(jù)池視為使用大數(shù)據(jù)技術(shù)構(gòu)建的數(shù)據(jù)倉庫。隨著更多的水坑被添加到大數(shù)據(jù)平臺,它可能有機地存在。創(chuàng)建數(shù)據(jù)池的另一種流行方法是將數(shù)據(jù)倉庫卸載。
與ETL卸載不同,ETL卸載使用大數(shù)據(jù)技術(shù)來執(zhí)行填充數(shù)據(jù)倉庫所需的一些處理,此處的想法是將數(shù)據(jù)倉庫中的所有數(shù)據(jù)加載到大數(shù)據(jù)平臺中。愿景通常是最終擺脫數(shù)據(jù)倉庫以節(jié)省成本并提高性能,因為大數(shù)據(jù)平臺比關(guān)系數(shù)據(jù)庫便宜得多且可伸縮性更高。但是,僅卸載數(shù)據(jù)倉庫并不能使分析人員訪問原始數(shù)據(jù)。由于仍然保持適用于數(shù)據(jù)倉庫的嚴(yán)格體系結(jié)構(gòu)和治理,因此組織無法解決數(shù)據(jù)倉庫的所有挑戰(zhàn),例如冗長而昂貴的變更周期,復(fù)雜的轉(zhuǎn)換以及將人工編碼作為所有報告的基礎(chǔ)。最后,分析人員通常不喜歡從具有閃電般快速查詢的精細(xì)數(shù)據(jù)倉庫遷移到可預(yù)測性差得多的大數(shù)據(jù)平臺,在該平臺上,大批查詢的運行速度可能比數(shù)據(jù)倉庫中的運行速度快,但更典型的小型查詢可能需要幾分鐘的時間。數(shù)據(jù)池的一些典型局限性:缺乏可預(yù)測性,敏捷性以及無法訪問未經(jīng)處理的原始數(shù)據(jù)。

