Apache Paimon畢業(yè),湖倉(cāng)架構(gòu)的未來(lái)發(fā)展趨勢(shì)!
共 3831字,需瀏覽 8分鐘
·
2024-04-30 12:55
北京時(shí)間 2024 年 4 月 16日,開(kāi)源軟件基金會(huì) Apache Software Foundation(以下簡(jiǎn)稱(chēng) ASF)正式宣布 Apache Paimon 畢業(yè)成為 Apache 頂級(jí)項(xiàng)目(TLP, Top Level Project)。經(jīng)過(guò)社區(qū)的共同努力和持續(xù)創(chuàng)新,Apache Paimon 在構(gòu)建實(shí)時(shí)數(shù)據(jù)湖與流批處理技術(shù)領(lǐng)域取得了重大突破,數(shù)據(jù)湖步入實(shí)時(shí)新篇章!
恭喜Paimon進(jìn)入一個(gè)新的篇章,這篇文章也是我個(gè)人結(jié)合當(dāng)前整個(gè)湖倉(cāng)領(lǐng)域的發(fā)展和實(shí)踐寫(xiě)的一個(gè)總結(jié)性質(zhì)的文章。
本文對(duì)湖倉(cāng)方向的核心幾個(gè)框架沒(méi)有做對(duì)比,Hudi、Paimon、Iceberg、Delta在各個(gè)公司都有非常成熟的應(yīng)用,無(wú)絲毫拉踩之意。主要目的是透過(guò)當(dāng)前的各個(gè)框架對(duì)湖倉(cāng)領(lǐng)域的發(fā)展做一個(gè)基本的判斷和預(yù)測(cè)。
湖倉(cāng)框架能力模型
湖倉(cāng)領(lǐng)域開(kāi)源的幾個(gè)核心框架,基本著眼點(diǎn)都在「同一批流一體存儲(chǔ)服務(wù)」。那么湖倉(cāng)領(lǐng)域的框架應(yīng)該具備的能力包含:
-
流式讀寫(xiě)
應(yīng)該具備秒級(jí)的數(shù)據(jù)數(shù)據(jù)寫(xiě)入和數(shù)據(jù)增量消費(fèi)能力。
并且如果湖倉(cāng)的框架想要取代Kafka的部分能力,這個(gè)RPS要求在千萬(wàn)級(jí)別,但是明顯目前是達(dá)不到的。在高RPS的業(yè)務(wù)場(chǎng)景中,湖倉(cāng)架構(gòu)不是一個(gè)很好的選擇,因?yàn)樾阅芷款i明顯,什么都想做的結(jié)果就是什么都不能做到極致,
-
批式讀寫(xiě)
在批讀和批寫(xiě)方面應(yīng)該完全涵蓋Hive的能力,并且提供分區(qū)并發(fā)更新、主鍵更新等額外能力,絕大多數(shù)情況下吞吐量應(yīng)該持平Hive。
此外,湖倉(cāng)領(lǐng)域的框架需要探索例如部分列更新、維度表等能力,這些能力也是湖倉(cāng)的框架明顯優(yōu)于傳統(tǒng)數(shù)據(jù)方向框架的標(biāo)志,目前在各個(gè)框架都有在推進(jìn)中,十分期待。
-
多引擎集成
湖倉(cāng)的框架要考慮跟Spark、Flink、Presto等引擎進(jìn)行高度的集成,不能厚此薄彼。
-
其他
集中在一些額外的擴(kuò)展能力,這些能力在傳統(tǒng)的數(shù)倉(cāng)框架中不具備/較弱的能力,例如Changelog的聚合、外表掛載等等。
解決的主要問(wèn)題
首先需要明確的是,湖倉(cāng)是解決特定場(chǎng)景下問(wèn)題的能力,基于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的不足而產(chǎn)生的,不存在完全替代xx,只是在特定領(lǐng)域解決特定問(wèn)題的更優(yōu)的解決方案。
在湖倉(cāng)領(lǐng)域,通常我們解決的問(wèn)題有傳統(tǒng)鏈路不能解決或者成本較高的部分。
我們隨便舉幾個(gè)例子:
我們可以基于Hudi/Paimon的表直接進(jìn)行分析,在流讀場(chǎng)景取代Kafka的部分能力,解決Kafka對(duì)查詢(xún)分析能力的弱支持;
基于OLAP成本過(guò)高,通過(guò)掛在外部表實(shí)現(xiàn)存儲(chǔ)、計(jì)算分離,鏈路解耦;
在批讀場(chǎng)景解決主鍵更新問(wèn)題,有效減少下游計(jì)算的排序去重成本等等。
這些能力是原來(lái)的離線和實(shí)時(shí)鏈路不具備的能力,或者支持較弱,需要額外的開(kāi)發(fā)成本,從開(kāi)發(fā)效率、質(zhì)量和穩(wěn)定性等方向綜合考量的結(jié)果,是可以通過(guò)湖倉(cāng)鏈路進(jìn)行替代。
最后
湖倉(cāng)領(lǐng)域發(fā)展趨勢(shì)很好,在國(guó)內(nèi)的幾家大廠已經(jīng)有了成熟的應(yīng)用,并且在替代原有鏈路上在進(jìn)行積極的探索。
未來(lái)大家會(huì)看到,湖倉(cāng)領(lǐng)域框架的能力越強(qiáng),傳統(tǒng)的數(shù)據(jù)開(kāi)發(fā)的理論和開(kāi)發(fā)模式越容易被替代。等到湖倉(cāng)框架大成的那一天,也許大家已經(jīng)掌握的技能又要全部推翻重來(lái)了。
300萬(wàn)字!全網(wǎng)最全大數(shù)據(jù)學(xué)習(xí)面試社區(qū)等你來(lái)!
