阿里云首次揭秘如何構(gòu)建云原生數(shù)據(jù)湖體系(附電子書下載)

大數(shù)據(jù)文摘出品?
作者:無謂、鐵杰、周皓、亦龍、揚清
?
“數(shù)據(jù)湖”正在被越來越多人提起,盡管定義并不統(tǒng)一,但企業(yè)們都已紛紛下水實踐,無論是AWS還是阿里云、華為。
我們認為:數(shù)據(jù)湖是大數(shù)據(jù)和AI時代融合存儲和計算的全新體系。
為什么這么說?還要從它的發(fā)展說起。
數(shù)據(jù)量爆發(fā)式增長的今天,數(shù)字化轉(zhuǎn)型成為IT行業(yè)的熱點,數(shù)據(jù)需要更深度的價值挖掘,因此需要確保數(shù)據(jù)中保留的原始信息不丟失,應(yīng)對未來不斷變化的需求。
當前以O(shè)racle為代表的數(shù)據(jù)庫中間件已經(jīng)逐漸無法適應(yīng)這樣的需求,于是業(yè)界也不斷地產(chǎn)生新的計算引擎,以便應(yīng)對大數(shù)據(jù)時代的到來。
企業(yè)開始紛紛自建開源Hadoop數(shù)據(jù)湖架構(gòu),原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主,存儲和計算一體。
缺點是需要企業(yè)自己運維和管理整套集群,成本高且集群穩(wěn)定性較差。
在這種情況下,云上托管Hadoop數(shù)據(jù)湖架構(gòu)(即EMR開源數(shù)據(jù)湖)應(yīng)運而生。底層物理服務(wù)器和開源軟件版本由云廠商提供和管理,數(shù)據(jù)仍統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主。
這個架構(gòu)通過云上IaaS 層提升了機器層面的彈性和穩(wěn)定性,使企業(yè)的整體運維成本有所下降,但企業(yè)仍然需要對HDFS系統(tǒng)以及服務(wù)運行狀態(tài)進行管理和治理,即應(yīng)用層的運維工作。
因為存儲和計算耦合在一起,穩(wěn)定性不是最優(yōu),兩種資源無法獨立擴展,使用成本也不是最優(yōu)。
同時,受到開源軟件本身能力的限制,傳統(tǒng)數(shù)據(jù)湖技術(shù)無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構(gòu)升級等方面的需求,也無法達到數(shù)據(jù)湖架構(gòu)的理想目標。
企業(yè)在這個時期需要更低廉的數(shù)據(jù)存儲成本、更精細的數(shù)據(jù)資產(chǎn)管理、可共享的數(shù)據(jù)湖元數(shù)據(jù)、更實時的數(shù)據(jù)更新頻率以及更強大的數(shù)據(jù)接入工具。
云原生時代到來,我們可以有效利用公有云的基礎(chǔ)設(shè)施,數(shù)據(jù)湖平臺也有了更多的技術(shù)選擇。比如云上純托管的存儲系統(tǒng)逐步取代HDFS,成為數(shù)據(jù)湖的存儲基礎(chǔ)設(shè)施,并且引擎豐富度也不斷擴展。
除了Hadoop和Spark的生態(tài)引擎之外,各云廠商還發(fā)展出面向數(shù)據(jù)湖的引擎產(chǎn)品。如分析類的數(shù)據(jù)湖引擎有AWS Athena和華為DLI,AI類的有AWS Sagemaker。
這個架構(gòu)仍然保持了一個存儲和多個引擎的特性,所以統(tǒng)一元數(shù)據(jù)服務(wù)至關(guān)重要。
基于此,阿里云正式發(fā)布了云原生數(shù)據(jù)湖體系,由對象存儲OSS、數(shù)據(jù)湖構(gòu)建Data Lake Formation、E-MapReduce產(chǎn)品強強組合,提供存儲與計算分離架構(gòu)下,湖存儲、湖加速、湖管理、湖計算的企業(yè)級數(shù)據(jù)湖解決方案。
?
《阿里云云原生數(shù)據(jù)湖體系全解讀》是阿里云首次發(fā)布云原生數(shù)據(jù)湖體系,基于對象存儲OSS、數(shù)據(jù)湖構(gòu)建Data Lake Formation和E-MapReduce產(chǎn)品的強強組合,提供存儲與計算分離架構(gòu)下,涵蓋湖存儲、湖加速、湖管理和湖計算的企業(yè)級數(shù)據(jù)湖解決方案。
復(fù)制該鏈接到瀏覽器完成下載或分享:
?

?
目錄
?

?
其中的云原生數(shù)據(jù)湖技術(shù)系列專題,將告訴大家如何基于阿里云 OSS 、JindoFS和數(shù)據(jù)湖構(gòu)建(Data Lake Formation,DLF)等基礎(chǔ)服務(wù),結(jié)合阿里云上豐富的計算引擎,打造一個全新云原生數(shù)據(jù)湖體系。
?

數(shù)據(jù)湖存儲?OSS
阿里云對象存儲 OSS 是數(shù)據(jù)湖的統(tǒng)一存儲層,它基于12個9的可靠性設(shè)計,可存儲任意規(guī)模的數(shù)據(jù),可對接業(yè)務(wù)應(yīng)用、各類計算分析平臺,非常適合企業(yè)基于OSS構(gòu)建數(shù)據(jù)湖。
相對于HDFS來說,OSS可以存儲海量小文件,并且通過冷熱分層、高密度存儲、高壓縮率算法等先進技術(shù)極大降低單位存儲成本。同時OSS對Hadoop生態(tài)友好,且無縫對接阿里云各計算平臺。針對數(shù)據(jù)分析場景,OSS推出 OSS Select、Shallow Copy和多版本等功能,加速數(shù)據(jù)處理速度,增強數(shù)據(jù)一致性能力。
數(shù)據(jù)湖加速
對象存儲系統(tǒng)在架構(gòu)設(shè)計上和 HDFS 等分布式文件系統(tǒng)存在一定差異,同時存儲和計算分離架構(gòu)中 OSS 是遠端的存儲服務(wù),在大數(shù)據(jù)計算層面缺少對數(shù)據(jù)本地化的支持。
因此,在 OSS 對象存儲服務(wù)的基礎(chǔ)上,阿里云定制了自研的大數(shù)據(jù)存儲服務(wù) —— JindoFS,極大的提升數(shù)據(jù)湖上的引擎分析性能,在TPC-DS、Terasort等常見的benchmark測試中,采用計算存儲分離架構(gòu)的 JindoFS性能已經(jīng)達到或超過了本地部署的HDFS。
同時JindoFS完全兼容 Hadoop 文件系統(tǒng)接口,給客戶帶來更加靈活、高效的計算存儲方案,目前已驗證支持Hadoop開源生態(tài)中最主流的計算服務(wù)和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。當前 JindoFS存儲服務(wù)包含在阿里云 EMR 產(chǎn)品中,未來 JindoFS會有更多的產(chǎn)品形態(tài)服務(wù)于數(shù)據(jù)湖加速場景。
數(shù)據(jù)湖構(gòu)建(DLF)
傳統(tǒng)的數(shù)據(jù)湖架構(gòu)非常強調(diào)數(shù)據(jù)的統(tǒng)一存儲,但對數(shù)據(jù)的Schema管理缺乏必要的手段和工具,需要上層分析和計算引擎各自維護元數(shù)據(jù),并且對數(shù)據(jù)的訪問沒有統(tǒng)一的權(quán)限管理,無法滿足企業(yè)級用戶的需求。
數(shù)據(jù)湖構(gòu)建(DLF)服務(wù)是阿里云在2020年9月推出的針對數(shù)據(jù)湖場景的核心產(chǎn)品,主要為了解決構(gòu)建數(shù)據(jù)湖過程中用戶對數(shù)據(jù)資產(chǎn)的管理需求。DLF 對 OSS 中存儲的數(shù)據(jù)提供統(tǒng)一的元數(shù)據(jù)視圖和統(tǒng)一的權(quán)限管理,并提供實時數(shù)據(jù)入湖和清洗模板,為上層的數(shù)據(jù)分析引擎提供生產(chǎn)級別的元數(shù)據(jù)服務(wù)。
?
云原生計算引擎
當前阿里云上眾多云原生計算引擎已經(jīng)接入或準備接入數(shù)據(jù)湖構(gòu)建服務(wù),包括阿里云EMR上的開源計算引擎Spark、Hive、Presto、Flink以及大數(shù)據(jù)計算服務(wù) MaxCompute、數(shù)據(jù)洞察 Databricks 引擎和數(shù)據(jù)湖分析(DLA)等。
以最常用的開源引擎 Spark 為例,阿里云 Spark 可以直接對接數(shù)據(jù)湖構(gòu)建的元數(shù)據(jù)服務(wù),運行在多集群或多平臺上的 Spark 任務(wù)共享同一個數(shù)據(jù)湖元數(shù)據(jù)視圖。并且 EMR 為 Spark 推出了Shuffle Service服務(wù),Spark 引擎因此獲得云原生平臺上的彈性擴縮容能力。云原生計算引擎結(jié)合數(shù)據(jù)湖架構(gòu)可以獲得更高的靈活度并極大的降低數(shù)據(jù)分析成本。
?
另外,云原生數(shù)據(jù)倉庫 MaxCompute也準備接入數(shù)據(jù)湖構(gòu)建服務(wù),未來數(shù)倉和數(shù)據(jù)湖將會發(fā)生什么樣的化學(xué)反應(yīng)呢?敬請期待。
?
數(shù)據(jù)湖治理
DataWorks數(shù)據(jù)綜合治理可為阿里云客戶提供統(tǒng)一的數(shù)據(jù)視圖,用于掌握數(shù)據(jù)資產(chǎn)的現(xiàn)狀、助力數(shù)據(jù)質(zhì)量的提升、提高獲取數(shù)據(jù)的效率、保障數(shù)據(jù)安全的合規(guī)并提升數(shù)據(jù)查詢的分析效率。可以有效支撐離線大數(shù)據(jù)倉庫的構(gòu)建、數(shù)據(jù)聯(lián)邦的查詢和分析處理、海量數(shù)據(jù)的低頻交互式查詢和智能報表的構(gòu)建,以及數(shù)據(jù)湖方案的實現(xiàn)。
?
綜上所述,利用阿里云的基礎(chǔ)組件和整體解決方案,用戶可以方便的構(gòu)建一個數(shù)據(jù)湖平臺,完成企業(yè)大數(shù)據(jù)架構(gòu)轉(zhuǎn)型。
點擊“閱讀原文”了解詳情?

