干貨 | 一網(wǎng)打盡數(shù)據(jù)中臺知識體系!

來源:談數(shù)據(jù)
當前,大部分企業(yè)不再建設從源數(shù)據(jù)采集到分析應用的煙囪式系統(tǒng),更傾向于數(shù)據(jù)集中采集、存儲,并應用分層建設。這種方式一方面有利于應用系統(tǒng)的快速部署,另一方面也保證了數(shù)據(jù)的集中管理與運營,體現(xiàn)數(shù)據(jù)的資產(chǎn)、資源屬性。筆者根據(jù)個人數(shù)據(jù)中臺的工作實踐和學習以及思考總結,撰寫成本文數(shù)據(jù)中臺知識體系。

02 本質
數(shù)據(jù)中臺服務于數(shù)字化轉型,而企業(yè)數(shù)字化轉型的終局是傳統(tǒng)業(yè)務變成數(shù)字化業(yè)務,數(shù)字化業(yè)務的本質就是以數(shù)據(jù)作為新生產(chǎn)要素進行加工,構建以數(shù)據(jù)作為主要存在形式的產(chǎn)品,產(chǎn)生商業(yè)價值的業(yè)務模型。
因此數(shù)據(jù)中臺的本質更像一種企業(yè)架構,是一套互聯(lián)網(wǎng)技術和行業(yè)特性,在企業(yè)發(fā)展的不確定性中,尋找確定性,并且持續(xù)沉淀和提煉企業(yè)核心能力,最終支持企業(yè)快速、高效、低成本進行業(yè)務創(chuàng)新和增強的企業(yè)架構。
03 數(shù)據(jù)中臺、數(shù)倉、大數(shù)據(jù)平臺的區(qū)別
1)數(shù)據(jù)中臺VS數(shù)據(jù)倉庫
數(shù)據(jù)中臺建設包含數(shù)據(jù)體系建設,也就是數(shù)據(jù)中臺包含數(shù)據(jù)倉庫的完整內(nèi)容,數(shù)據(jù)中臺將企業(yè)數(shù)據(jù)倉庫建設的投入價值進行最大化,以加快數(shù)據(jù)賦能業(yè)務的速度,為業(yè)務提供速度更快、更多樣的數(shù)據(jù)服務。數(shù)據(jù)中臺也可以將已建好的數(shù)據(jù)倉庫當成數(shù)據(jù)源,對接已有數(shù)據(jù)建設成果,避免重復建設。當然也可以基于數(shù)據(jù)中臺提供的能力,通過匯聚、加工、治理各類數(shù)據(jù)源,構建全新的離線或實時數(shù)據(jù)倉庫。
2)數(shù)據(jù)中臺vs大數(shù)據(jù)平臺
大數(shù)據(jù)基礎能力層:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、Elasticsearch等。在大數(shù)據(jù)組件上搭建的ETL流水線,包括數(shù)據(jù)分析、機器學習程序。數(shù)據(jù)治理系統(tǒng)。數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)可視化系統(tǒng)。
數(shù)據(jù)中臺應該是大數(shù)據(jù)平臺的一個超集。在大數(shù)據(jù)平臺的基礎之上,數(shù)據(jù)中臺還應該提供下面的系統(tǒng)功能:
全局的數(shù)據(jù)應用資產(chǎn)管理
全局的數(shù)據(jù)治理機制
自助的、多租戶的數(shù)據(jù)應用開發(fā)及發(fā)布
數(shù)據(jù)應用運維
數(shù)據(jù)應用集成
數(shù)據(jù)即服務,模型即服務
數(shù)據(jù)能力共享管理
完善的運營指標
數(shù)據(jù)豐富和完善:多樣的數(shù)據(jù)源進行合并和完善
管理易用:可視化任務配置、豐富的監(jiān)控管理功能
數(shù)據(jù)集成運營:數(shù)據(jù)接入、轉換、寫入或緩存內(nèi)部來源的各來源數(shù)據(jù)
數(shù)據(jù)目錄與治理:用戶可以方便定位所需數(shù)據(jù),理解數(shù)據(jù)(技術/業(yè)務治理)
數(shù)據(jù)安全:確保數(shù)據(jù)的訪問權限
數(shù)據(jù)可用:用戶可簡便、可擴展的訪問異構數(shù)據(jù),可用性和易用性高
部署靈活:本地、公有云、私有云等多種部署方式

2、提純加工(數(shù)據(jù)資產(chǎn)化——數(shù)據(jù)提煉與分析加工能力)
完善的安全訪問控制
完善的數(shù)據(jù)質量保障體系
規(guī)范的、緊密結合業(yè)務的可擴展的標簽體系
面向業(yè)務主題的資產(chǎn)平臺
智能的數(shù)據(jù)映射能力,簡化數(shù)據(jù)資產(chǎn)生成

3、服務可視化(數(shù)據(jù)資產(chǎn)服務化能力)
提供自然語言等人工智能服務
提供豐富的數(shù)據(jù)分析功能
提供友好的數(shù)據(jù)可視化服務
便捷、快速的服務開發(fā)環(huán)境,方便業(yè)務人員開發(fā)數(shù)據(jù)應用
提供實時流數(shù)據(jù)分析
提供預測分析、機器學習等高級服務

4、價值變現(xiàn)
提供數(shù)據(jù)應用的管理能力
提供數(shù)據(jù)洞察直接驅動業(yè)務行動的通路
提供跨行業(yè)務場景的能力
提供跨部門的普適性業(yè)務價值能力
提供基于場景的數(shù)據(jù)應用
提供業(yè)務行動效果評估功能


1)業(yè)務價值(業(yè)務創(chuàng)新,形成核心壁壘)
1、以客戶為中心,用洞察驅動企業(yè)穩(wěn)健行動
2、以數(shù)據(jù)為基礎,直系大規(guī)模商業(yè)模式創(chuàng)新
3、盤活全量數(shù)據(jù),構筑堅實壁壘已持續(xù)領先
2)技術價值(成本低、能力多、應用廣)
1、應對多數(shù)據(jù)處理的需求
2、豐富標簽數(shù)據(jù),減低管理成本
3、數(shù)據(jù)價值能體現(xiàn)業(yè)務系統(tǒng)效果而不僅是準確度
4、支持跨主題域訪問數(shù)據(jù)
5、數(shù)據(jù)可以快速復用、不僅是復制
總結:數(shù)據(jù)中臺是把業(yè)務生產(chǎn)資料轉變?yōu)閿?shù)據(jù)生產(chǎn)力,同時數(shù)據(jù)生產(chǎn)力反哺業(yè)務,不斷迭代循環(huán)的閉環(huán)過程——數(shù)據(jù)驅動決策、運營
1.指標口徑不一致
通常表現(xiàn)在3個方面:業(yè)務口徑不一致、計算邏輯不一致、數(shù)據(jù)來源不一致。
-
業(yè)務口徑不一致:業(yè)務口徑不一致的指標,應該要有不同的標識去區(qū)分,比如上面提到的銷售額這一指標,明明口徑是不一致的,但卻沒有區(qū)分,容易讓業(yè)務誤解。 計算邏輯不一致:業(yè)務口徑的描述往往是一段話,但對于一些計算邏輯比較復雜的指標,一段話通常是描述不清楚的,如果碰巧兩個相同業(yè)務口徑的指標是不同的數(shù)據(jù)研發(fā)實現(xiàn)的,極有可能會出現(xiàn)計算邏輯不一致的情況。
數(shù)據(jù)來源不一致:對于部分指標,有多個數(shù)據(jù)源可供選擇,如果數(shù)據(jù)源正好有些細微差異不被發(fā)現(xiàn)時,即使加工邏輯一樣,也有可能結果不一致。另外,實時數(shù)據(jù)和離線數(shù)據(jù)也會有一定差異。
2.煙囪式建設數(shù)據(jù)平臺,大量源被浪費,響應速度慢
主要在于煙囪式的開發(fā)模式,使得數(shù)據(jù)復用性低,導致大量重復邏輯代碼的研發(fā),影響需求響應速度。
比如,兩個指標都需要對同一份原始數(shù)據(jù)進行清洗,原則上來說,只用一個任務對原始數(shù)據(jù)做清洗,產(chǎn)出一張明細表,另一個指標開發(fā)時,便可直接引用已經(jīng)清洗好的明細表,這樣便可節(jié)省一個清洗邏輯的研發(fā)工作量。但現(xiàn)實往往是對同一份原始數(shù)據(jù)做了兩次清洗。因此,要解決需求響應速度慢的問題,就要提升數(shù)據(jù)的復用性,確保相同數(shù)據(jù)只加工一次,實現(xiàn)數(shù)據(jù)的共享。
3.取數(shù)效率低
主要表現(xiàn)在兩個方面,一方面是找不到數(shù)據(jù),另一方面是取不到數(shù)據(jù)。要解決找不到數(shù)據(jù)的問題,就要構建企業(yè)數(shù)據(jù)資產(chǎn)目錄,讓數(shù)據(jù)使用者快速找到并理解數(shù)據(jù)。取不到數(shù)據(jù)的主要是非技術人員不會寫SQL去提取數(shù)據(jù),所以可以為其提供自助取數(shù)工具,使其簡單快速的獲取數(shù)據(jù)。
4.數(shù)據(jù)質量低
面對業(yè)務已經(jīng)沉淀的大量數(shù)據(jù),逐步形成了企業(yè)的數(shù)據(jù)資產(chǎn)。而這些數(shù)據(jù)資產(chǎn)如何成為可持續(xù)使用的,為企業(yè)帶來價值的數(shù)據(jù),需要數(shù)據(jù)治理進行提升數(shù)據(jù)質量,比如設計數(shù)據(jù)質量校驗的規(guī)則和使用流程,設計數(shù)據(jù)管控權限,數(shù)據(jù)如何安全輸出及共享的設計等,如何在整體上發(fā)揮出數(shù)據(jù)的協(xié)同效應,為業(yè)務提供更高價值的數(shù)據(jù)服務鏈路,數(shù)據(jù)中臺可以將這些數(shù)據(jù)能力整合到一起,對業(yè)務端提供穩(wěn)定的持續(xù)的服務能力。
數(shù)據(jù)中臺的構建需要大量人力物力的投入,所以數(shù)據(jù)中臺的建設一定要結合企業(yè)的現(xiàn)狀,按需選擇,不可盲目跟風。因此,企業(yè)在選擇是否構建數(shù)據(jù)中臺的時,可以從以下幾個方面思考:
首先,看企業(yè)是否有一定的數(shù)據(jù)基礎,是否實現(xiàn)了業(yè)務數(shù)據(jù)化的過程,有了一定的數(shù)據(jù)沉淀,數(shù)據(jù)中臺,顧名思義,數(shù)據(jù)是基礎;
其次,企業(yè)是否存在業(yè)務數(shù)據(jù)孤島,是否有需要整合各個業(yè)務系統(tǒng)的數(shù)據(jù),進行關聯(lián)分析的需求,如果有,需要通過構建數(shù)據(jù)中臺,打通數(shù)據(jù)孤島,整合各業(yè)務系統(tǒng)數(shù)據(jù),滿足關聯(lián)分析的需求。比如某零售企業(yè),在業(yè)務發(fā)展初期,商品、銷售、供應鏈等都是獨立的數(shù)據(jù)倉庫,后期要構建智能補貨系統(tǒng),需要打通多個業(yè)務系統(tǒng)的數(shù)據(jù),因此選擇建設數(shù)據(jù)中臺;
最后,在日常的數(shù)據(jù)使用過程中是否遇到指標口徑不一致、需求響應速度慢、數(shù)據(jù)質量差、數(shù)據(jù)成本高等痛點,如果滿足前兩個條件,且在數(shù)據(jù)應用中存在以上所述的一些痛點,那建議你可以考慮將數(shù)據(jù)中臺項目提上日程了。
01 入手點
應從面向“業(yè)務價值”入手,簡單來講就是,面向應用更有目標性,能更早地發(fā)揮數(shù)據(jù)的價值,讓企業(yè)客戶的數(shù)字化轉型路徑不再是一個漫長的周期建設,而是一個逐步演進的過程。換一個更好的理解方式,其實是面向企業(yè)客戶實際需求,以及業(yè)務價值構建數(shù)據(jù)中臺。
首先,上數(shù)據(jù)中臺的最好是業(yè)務發(fā)展或變化快速的部門,因為這些業(yè)務上中臺,一是ROI容易成正比,二也能充分發(fā)揮數(shù)據(jù)的價值,容易得到各方認可;
其次,一開始不一定就得從統(tǒng)一數(shù)據(jù)口徑入手,是不是可以先容忍數(shù)據(jù)層面一定程度的混亂,驗證價值。當業(yè)務發(fā)展起來后,再去治理它,這很大程度上符合敏捷的理念,也符合很多企業(yè)的實際情況。
然后,針對業(yè)務價值或實際存在的問題提供服務,務實而非務虛。比如,①先上專家或架構師,進行項目診斷;②用產(chǎn)品和解決方案,走通關鍵路徑;③當核心業(yè)務問題被解決后,也有一些事情是需要客戶自己來完成,這時也能夠針對性提供一些咨詢服務。
02 匹配企業(yè)數(shù)字化進程
第一階段,對于本身已經(jīng)覆蓋較多信息系統(tǒng)的企業(yè),需要考慮把有關數(shù)據(jù)匯聚到一起。而對于信息化程度相對偏低的企業(yè),則要實現(xiàn)企業(yè)業(yè)務的在線化;
第二階段,需要企業(yè)評估其自身數(shù)據(jù)是否已經(jīng)實現(xiàn)了有機地融合。所謂的“融合”指的是企業(yè)通過一種標準把各個系統(tǒng)產(chǎn)生的數(shù)據(jù)進行有效的資產(chǎn)化。也就是說,這個階段企業(yè)需要完成數(shù)據(jù)治理和歸集工作;
第三階段,涉及數(shù)據(jù)的開放,即企業(yè)需要有專門的部門把歸集以后的數(shù)據(jù)開放給內(nèi)部各個部門,讓各部門了解企業(yè)的數(shù)據(jù)資產(chǎn)情況,從而更好地實現(xiàn)企業(yè)基于數(shù)據(jù)的服務提升與創(chuàng)新。有條件的企業(yè)再把數(shù)據(jù)開放給生態(tài)鏈上下游的企業(yè),實現(xiàn)服務創(chuàng)新、協(xié)作方式的重構,從而形成更大范圍的協(xié)同;
第四階段,指的是利用數(shù)據(jù)進行智能化處理。眾所周知,企業(yè)通過機器學習等人工智能的方式進行數(shù)據(jù)處理,可以創(chuàng)造出十分廣闊的增值空間,就像尋找礦產(chǎn)資源一樣,通過數(shù)據(jù)智能的方式,企業(yè)可以從前所未有的角度挖掘出全新的數(shù)據(jù)價值。
以上的數(shù)字化進程對于計劃實施數(shù)字化戰(zhàn)略的企業(yè)而言,是相對比較適合的一個過程。同時,由于各企業(yè)的實際情況不同,各自的戰(zhàn)略也會有所差別。大型企業(yè)建設中臺主要需要考慮轉體系問題,即企業(yè)應從整個組織、商業(yè)模式、戰(zhàn)略協(xié)同方面,開展全面的改造,即三個全:全在線、全鏈接、全協(xié)同。而發(fā)展中企業(yè)則需要先考慮“工具化”問題,即企業(yè)可以借助數(shù)據(jù)平臺、工具,首先實現(xiàn)業(yè)務的在線化,然后再考慮基于數(shù)據(jù)的服務提升。
03 數(shù)據(jù)中臺架構
從數(shù)據(jù)處理與數(shù)據(jù)治理兩個維度出發(fā),可以設計一個解耦的數(shù)據(jù)中臺體系架構。該數(shù)據(jù)中臺體系架構具有一定的柔性,可按照企業(yè)應用需求進行組合,或者對單個模塊進行擴充,能滿足大多數(shù)企業(yè)數(shù)據(jù)中臺建設的需求。

數(shù)據(jù)中臺的通用體系架構如圖 所示。該中臺體系架構以減少功能冗余和提高功能復用為原則,把數(shù)據(jù)中臺解耦為 6 個可以分別獨立建設、演進的功能子系統(tǒng)。
(4)運營監(jiān)控:對數(shù)據(jù)中臺的總體運營情況進行監(jiān)控管理,包括硬件環(huán)境、軟件環(huán)境,并且確定監(jiān)控指標,按需求提供運營日報,處理告警信息。
數(shù)據(jù)中臺的核心在于共享和沉淀能力,隨著數(shù)據(jù)中臺在行業(yè)頭部及領先企業(yè)逐漸落地,供應商經(jīng)歷了各類業(yè)務場景能力沉淀的過程。
在深度上,數(shù)據(jù)中臺廠商承載細分行業(yè)的各類定制化業(yè)務,不斷沉淀業(yè)務能力。
在廣度上,隨著不同業(yè)務場景的持續(xù)輸入,數(shù)據(jù)中臺廠商產(chǎn)品的能力越來越豐富,覆蓋的領域也越來越廣泛。
完善數(shù)據(jù)中臺的深度和廣度,提煉和整合數(shù)據(jù)中臺的服務,尤其是對于對數(shù)據(jù)中臺能力要求相對簡單的中小企業(yè),為客戶提供標準化的整體解決方案將成為數(shù)據(jù)中臺服務商的產(chǎn)品方向。

2、精細化
首先,數(shù)據(jù)中臺所提供的底層技術支撐能力,需要供應商在軟件架構、云技術、容器編排、DevOps等多方面有充足的技術儲備,還需要具備資本和技術實力的雙重積累。
縱觀中國數(shù)據(jù)中臺行業(yè),雖然界限并不明晰,但是大致形成了以阿里、騰訊等技術雄厚的頭部企業(yè)側重提供底層架構技術,其他中小供應商側重提供行業(yè)化服務和產(chǎn)品的競爭格局。
其次,沒有一家供應商可以覆蓋企業(yè)龐大的、所有的需求,尤其是多組織、多板塊、跨業(yè)務的大型企業(yè),所以在一個領域內(nèi)已經(jīng)完成實踐和形成規(guī)模的供應商會優(yōu)先深耕本領域,提供更加細分的場景切入口。
最后,企業(yè)也會根據(jù)業(yè)務需求面向不同領域的數(shù)據(jù)中臺產(chǎn)品進行選擇,不會局限于一家中臺服務商。隨著創(chuàng)業(yè)公司不斷成長,細小賽道逐漸被填充,愈加激烈的市場競爭會使差異化成為供應商采取的產(chǎn)品戰(zhàn)略。

3、SAAS化
從內(nèi)部來看,數(shù)據(jù)中臺不斷沉淀跨行業(yè)、跨企業(yè)復用的組件、模塊,存在朝SaaS和本地部署混合模式發(fā)展的趨勢。從外部來看,隨著云計算的普及,部分系統(tǒng)SaaS化趨勢較強。因此,作為前臺和后臺的連接,數(shù)據(jù)中臺與SaaS應用融合對接的 實踐越來越多,市場將逐漸形成一套成熟的中臺+SaaS系統(tǒng)融合閉環(huán)方案。
敏捷開發(fā)、快速迭代以適應業(yè)務需求是數(shù)據(jù)中臺的基本能力。隨著數(shù)據(jù)中臺市場滲透率的提高,應對小量應用調(diào)整的場景,低代碼需求在近期興起。允許通過零代碼或少量代碼就可以快速創(chuàng)建應用,對企業(yè)運維團隊的要求降低,將充分提升數(shù)據(jù) 中臺的應用性。

4、智能化
海量數(shù)據(jù)與多樣的業(yè)務場景導致數(shù)據(jù)中臺數(shù)據(jù)量大增,積累了豐富的數(shù)據(jù)指標,未來數(shù)據(jù)中臺將會應用智能技術提供通用化智能服務,為業(yè)務決策提供直接輔助場景,比如商品銷量預測,千人千面推薦算法、營銷活動預測等。同時,通過智能技術算法可以為前端員工降低數(shù)據(jù)使用的門檻,提高整體工作效率和生產(chǎn)效率。
(歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)
掃描二維碼關注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質量、推動企業(yè)走進大數(shù)據(jù)時代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。
我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長按,識別二維碼,關注我們吧!
數(shù)據(jù)工匠俱樂部
微信號:zgsjgjjlb
專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。
