數(shù)據(jù)湖 | 如何快速搭建云原生企業(yè)級(jí)數(shù)據(jù)湖架構(gòu)及實(shí)踐分享

內(nèi)容框架:
背景介紹
如何使用 DLF數(shù)據(jù)湖
產(chǎn)品Demo
直播回看鏈接:
https://developer.aliyun.com/live/247227
什么是數(shù)據(jù)湖:
結(jié)構(gòu)化數(shù)據(jù)( Orc 、Parquet )
半結(jié)構(gòu)化數(shù)據(jù) ( Json 、Xml )
非結(jié)構(gòu)化數(shù)據(jù)(圖像 、視頻)
為什么需要數(shù)據(jù)湖:
1、數(shù)據(jù)規(guī)模進(jìn)一步擴(kuò)大
大數(shù)據(jù)存儲(chǔ)需要治理
數(shù)據(jù)治理需要厘清數(shù)據(jù)依賴關(guān)系(血緣)
用戶需要明確大數(shù)據(jù)整體成本(TCO)
2、數(shù)據(jù)來源多樣化
事務(wù)數(shù)據(jù)(MySQL, SqlServer)
搜索數(shù)據(jù) (SOLR)
批處理數(shù)據(jù) (SPARK, HIVE)
3、數(shù)據(jù)格式多樣化
Parquet / Orc / Avro / Csv / Json / Text
4、數(shù)據(jù)分析場(chǎng)景多樣化
基于語(yǔ)義的搜索分析
隨機(jī)/近實(shí)時(shí) OLAP 分析
5、數(shù)據(jù)分析用戶多元化
分析用戶角色多元化 (開發(fā)/測(cè)試/數(shù)據(jù)/BI)
用戶數(shù)據(jù)訪問合規(guī)管控訴求
數(shù)據(jù)湖能做什么:
1、針對(duì)數(shù)據(jù)規(guī)模進(jìn)一步擴(kuò)大
數(shù)據(jù)湖提供 【數(shù)據(jù)血緣】服務(wù)
數(shù)據(jù)湖提供 【數(shù)據(jù)治理】服務(wù)
數(shù)據(jù)湖幫助用戶明確大數(shù)據(jù)的整體成本
2、針對(duì)數(shù)據(jù)來源多樣化
DLF 提供【統(tǒng)一元數(shù)據(jù)】服務(wù)
3、針對(duì)數(shù)據(jù)格式多樣化
DLF 提供【數(shù)據(jù)入湖/元數(shù)據(jù)爬取】服務(wù)
? 支持 MYSQL/KAFKA 入湖,元數(shù)據(jù)爬取
? 支持離線/實(shí)時(shí)入湖, 滿足不同業(yè)務(wù)時(shí)效要求
? 支持 DELTA/HUDI 等數(shù)據(jù)湖格式
4、針對(duì)數(shù)據(jù)分析場(chǎng)景多樣化
DLF 提供【統(tǒng)一元數(shù)據(jù)服務(wù)】
? 可以切換不同引擎 MC/EMR/DDI
? 數(shù)據(jù)探索在不同引擎之間一致
5、針對(duì)數(shù)據(jù)分析用戶多元化
數(shù)據(jù)湖提供【訪問權(quán)限控制】服務(wù)
? 多引擎下的數(shù)據(jù)訪問集中授權(quán)/避免反復(fù)授權(quán)
? 解決多用戶數(shù)據(jù)訪問合規(guī)問題
數(shù)據(jù)湖提供【訪問日志審計(jì)】服務(wù)
? 解決用用戶數(shù)據(jù)訪問合規(guī)審查問題

數(shù)據(jù)入湖:
1、大量異構(gòu)外部數(shù)據(jù)源【數(shù)據(jù)入湖】服務(wù)
全量導(dǎo)入 :批量入湖一次導(dǎo)入
增量導(dǎo)入 :實(shí)時(shí)入湖流失增量導(dǎo)入

2、大量現(xiàn)存Hadoop生態(tài)數(shù)據(jù) 【元數(shù)據(jù)爬取】服務(wù)
將數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖OSS進(jìn)行存儲(chǔ)
元數(shù)據(jù)爬取 提取原有數(shù)據(jù)schema

數(shù)據(jù)查詢:
數(shù)據(jù)湖【統(tǒng)一元數(shù)據(jù)】服務(wù)支持多種引擎查詢
使用數(shù)據(jù)探索(SPARK)對(duì)入湖數(shù)據(jù)進(jìn)行探查
使用MAXCOMPUTE對(duì)數(shù)據(jù)進(jìn)行深度復(fù)雜加工
使用Databricks DDI專用集群對(duì)數(shù)據(jù)進(jìn)行探索
更多引擎支持中…

數(shù)據(jù)治理:
1、使用【權(quán)限訪問控制】服務(wù)控制數(shù)據(jù)訪問
進(jìn)行 庫(kù)/表/列 級(jí)別的訪問權(quán)限設(shè)置
統(tǒng)一的元數(shù)據(jù),只需要設(shè)置一次
2、使用【數(shù)據(jù)治理】服務(wù)明確大數(shù)據(jù)總成本
日/周/月 級(jí)別的存儲(chǔ)使用情況 – 及時(shí)釋放過時(shí)的大存儲(chǔ)文件
日/周/月 級(jí)別的計(jì)算使用情況 – 及時(shí)識(shí)別數(shù)據(jù)上的異常計(jì)算
數(shù)據(jù)湖構(gòu)建 DLF 體驗(yàn)鏈接:
https://dlf.console.aliyun.com/
點(diǎn)擊文章下方閱讀原文,直接觀看直播視頻回放,獲取講師實(shí)例講解~
不錯(cuò)過每次直播信息、探討更多數(shù)據(jù)湖相關(guān)技術(shù)問題,歡迎掃碼加入釘釘交流群!
