實時數(shù)倉的過去現(xiàn)在和未來
企業(yè)為什么需要實時數(shù)據(jù)倉庫
數(shù)據(jù)處理流程
ODS:Operation Data Store,也稱為貼源層。數(shù)據(jù)倉庫源頭系統(tǒng)的數(shù)據(jù)表通常會原封不動的存儲一份,這稱為ODS層,是后續(xù)數(shù)據(jù)倉庫加工數(shù)據(jù)的來源。 DW數(shù)據(jù)分層,由下到上一般分為DWD,DWB,DWS。 DWD:Data Warehouse Details 細(xì)節(jié)數(shù)據(jù)層,是業(yè)務(wù)層與數(shù)據(jù)倉庫的隔離層。主要對ODS數(shù)據(jù)層做一些數(shù)據(jù)清洗(去除空值、臟數(shù)據(jù)、超過極限范)和規(guī)范化的操作。 DWB:Data Warehouse Base 數(shù)據(jù)基礎(chǔ)層,存儲的是客觀數(shù)據(jù),一般用作中間層,可以認(rèn)為是大量指標(biāo)的數(shù)據(jù)層。 DWS:Data Warehouse Service 數(shù)據(jù)服務(wù)層,基于DWB上的基礎(chǔ)數(shù)據(jù),主要是對用戶行為進行輕度聚合,整合匯總成分析某一個主題域的服務(wù)數(shù)據(jù)層,一般是寬表。用于提供后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等。 數(shù)據(jù)服務(wù)層/應(yīng)用層(APP/DWA):該層主要是提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù),我們通過說的報表數(shù)據(jù),或者說那種大寬表,一般就放在這里。
實時數(shù)倉的常見方案
LAMBDA & KAPPA 實時架構(gòu)


湖倉一體能否解決實時問題?
實時性成為了提升企業(yè)競爭力的核心手段。目前的湖、倉、或者湖倉分體都是基于 T+1 設(shè)計的,面對 T+0 的實時按需分析,用戶的需求無法滿足。 所有用戶(BI 用戶、數(shù)據(jù)科學(xué)家等)可以共享同一份數(shù)據(jù),避免數(shù)據(jù)孤島。 超高并發(fā)能力,支持?jǐn)?shù)十萬用戶使用復(fù)雜分析查詢并發(fā)訪問同一份數(shù)據(jù)。 傳統(tǒng) Hadoop 在事務(wù)支持等方面的不足被大家詬病,在高速發(fā)展之后未能延續(xù)熱度,持續(xù)引領(lǐng)數(shù)據(jù)管理,因此事務(wù)支持在湖倉一體架構(gòu)中應(yīng)得到改善和提升。 云原生數(shù)據(jù)庫已經(jīng)逐漸成熟,基于存算分離技術(shù),可以給用戶帶來多種價值:降低技術(shù)門檻、減少維護成本、提升用戶體驗、節(jié)省資源費用,已成為了湖倉一體落地的重要法門。 為釋放數(shù)據(jù)價值提升企業(yè)智能化水平,數(shù)據(jù)科學(xué)家等用戶角色必須通過多種類型數(shù)據(jù)進行全域數(shù)據(jù)挖掘,包括但不限于歷史的、實時的、在線的、離線的、內(nèi)部的、外部的、結(jié)構(gòu)化的、非結(jié)構(gòu)化數(shù)據(jù)。
云原生數(shù)據(jù)倉庫 + Omega實時架構(gòu) 實現(xiàn)實時湖倉
云原生數(shù)據(jù)庫實現(xiàn)完全的存算分離
基于Omega實時框架的湖倉方案
Omega 架構(gòu)邏輯圖

結(jié)語:
架構(gòu)層面要保持靈活開放,支持多種技術(shù)兼容性并存。目前,企業(yè)已經(jīng)部署了多個系統(tǒng),有自己的一套架構(gòu)體系,技術(shù)融合落地時需要最大化利用企業(yè)原有IT資產(chǎn),保護客戶投資。 有效利用資源,降本增效。原來傳統(tǒng)的技術(shù)棧,所有資源參與計算,造成IT資源浪費。比如,云原生資源池化,可以實現(xiàn)資源隔離與動態(tài)管理,便于最大化利用資源。 滿足更高的用戶體驗。從用戶角度來看,在技術(shù)條件具備的前提下,比如高性能、高并發(fā)、實時性更強,便具備了更強的信息加工能力,能夠在很短的時間內(nèi)滿足用戶各種各樣的數(shù)據(jù)服務(wù)需求,提升用戶體驗。
評論
圖片
表情
