數(shù)據(jù)湖在大數(shù)據(jù)典型場景下應(yīng)用調(diào)研個人筆記

華為生產(chǎn)場景數(shù)據(jù)湖平臺建設(shè)實踐


(綠色)結(jié)構(gòu)化數(shù)據(jù)通過批處理、虛擬鏡像到Hive數(shù)據(jù),再通過Kylin預(yù)處理將數(shù)據(jù)儲存在Cube中,封裝成RESTAPI服務(wù),提供高并發(fā)亞秒級查詢服務(wù),監(jiān)測物料質(zhì)量情況;
(紅色)IoT數(shù)據(jù),通過sensor采集上報到MQS,走storm實時分揀到HBase,通過算法模型加工后進(jìn)行ICT物料預(yù)警監(jiān)測;
(黃色)條碼數(shù)據(jù)通過ETLloader到IQ列式數(shù)據(jù)湖,經(jīng)過清洗加工后,提供千億規(guī)模條碼掃描操作。

統(tǒng)一索引描述非結(jié)構(gòu)數(shù)據(jù),方便數(shù)據(jù)檢索分析。
增加維護(hù)及更新時間作為對象描述字段(圖片類型、像素大小、尺寸規(guī)格)。非對象方式及數(shù)字化屬性編目(全文文本、圖像、聲音、影視、超媒體等信息),自定義元數(shù)據(jù)。
不同類型的數(shù)據(jù)可以形成了關(guān)聯(lián)并處理非結(jié)構(gòu)化數(shù)據(jù)。

實時金融數(shù)據(jù)湖的應(yīng)用
第一,數(shù)據(jù)源。不僅僅支持結(jié)構(gòu)化數(shù)據(jù),也支持半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
第二,統(tǒng)一數(shù)據(jù)接入。數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)接入平臺,按數(shù)據(jù)的不同類型進(jìn)行智能的數(shù)據(jù)接入。
第三,數(shù)據(jù)存儲。包括數(shù)據(jù)倉庫和數(shù)據(jù)湖,實現(xiàn)冷熱溫智能數(shù)據(jù)分布。
第四,數(shù)據(jù)開發(fā)。包括任務(wù)開發(fā),任務(wù)調(diào)度,監(jiān)控運維,可視化編程。
第五,數(shù)據(jù)服務(wù)。包括交互式查詢,數(shù)據(jù) API,SQL 質(zhì)量評估,元數(shù)據(jù)管理,血緣管理。
第六,數(shù)據(jù)應(yīng)用。包括數(shù)字化營銷,數(shù)字化風(fēng)控,數(shù)據(jù)化運營,客戶畫像。

在存儲層,有 MPP 數(shù)據(jù)倉庫和基于 OSS/HDFS 的數(shù)據(jù)湖,可以實現(xiàn)智能存儲管理。
在計算層,實現(xiàn)統(tǒng)一的元數(shù)據(jù)服務(wù)。
在服務(wù)層,有聯(lián)邦數(shù)據(jù)計算和數(shù)據(jù)服務(wù) API 兩種方式。其中,聯(lián)邦數(shù)據(jù)計算服務(wù)是一個聯(lián)邦查詢引擎,可以實現(xiàn)數(shù)據(jù)跨庫查詢,它依賴的就是統(tǒng)一元數(shù)據(jù)服務(wù),查詢的是數(shù)據(jù)倉庫和數(shù)據(jù)湖中的數(shù)據(jù)。
在產(chǎn)品層,提供智能服務(wù):包 RPA、證照識別、語言分析、客戶畫像、智能推薦。商業(yè)分析服務(wù):包括自助分析、客戶洞察、可視化。數(shù)據(jù)開發(fā)服務(wù):包括數(shù)據(jù)開發(fā)平臺,自動化治理。



Soul的Delta Lake數(shù)據(jù)湖應(yīng)用實踐

實現(xiàn)了類似Iceberg的hidden partition功能,用戶可選擇某些列做適當(dāng)變化形成一個新的列,此列可作為分區(qū)列,也可作為新增列,使用SparkSql操作。如:有日期列date,那么可以通過 'substr(date,1,4) as year' 生成新列,并可以作為分區(qū)。
為避免臟數(shù)據(jù)導(dǎo)致分區(qū)出錯,實現(xiàn)了對動態(tài)分區(qū)的正則檢測功能,比如:Hive中不支持中文分區(qū),用戶可以對動態(tài)分區(qū)加上'\w+'的正則檢測,分區(qū)字段不符合的臟數(shù)據(jù)則會被過濾。
實現(xiàn)自定義事件時間字段功能,用戶可選數(shù)據(jù)中的任意時間字段作為事件時間落入對應(yīng)分區(qū),避免數(shù)據(jù)漂移問題。
嵌套Json自定義層數(shù)解析,我們的日志數(shù)據(jù)大都為Json格式,其中難免有很多嵌套Json,此功能支持用戶選擇對嵌套Json的解析層數(shù),嵌套字段也會被以單列的形式落入表中。
實現(xiàn)SQL化自定義配置動態(tài)分區(qū)的功能,解決埋點數(shù)據(jù)傾斜導(dǎo)致的實時任務(wù)性能問題,優(yōu)化資源使用,此場景后面會詳細(xì)介紹。

