<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Apache Paimon畢業(yè),湖倉(cāng)架構(gòu)的未來(lái)發(fā)展趨勢(shì)!

          共 3831字,需瀏覽 8分鐘

           ·

          2024-04-30 12:55

          北京時(shí)間 2024 年 4 月 16日,開(kāi)源軟件基金會(huì) Apache Software Foundation(以下簡(jiǎn)稱(chēng) ASF)正式宣布 Apache Paimon 畢業(yè)成為 Apache 頂級(jí)項(xiàng)目(TLP, Top Level Project)。經(jīng)過(guò)社區(qū)的共同努力和持續(xù)創(chuàng)新,Apache Paimon 在構(gòu)建實(shí)時(shí)數(shù)據(jù)湖與流批處理技術(shù)領(lǐng)域取得了重大突破,數(shù)據(jù)湖步入實(shí)時(shí)新篇章!

          恭喜Paimon進(jìn)入一個(gè)新的篇章,這篇文章也是我個(gè)人結(jié)合當(dāng)前整個(gè)湖倉(cāng)領(lǐng)域的發(fā)展和實(shí)踐寫(xiě)的一個(gè)總結(jié)性質(zhì)的文章。

          本文對(duì)湖倉(cāng)方向的核心幾個(gè)框架沒(méi)有做對(duì)比,Hudi、Paimon、Iceberg、Delta在各個(gè)公司都有非常成熟的應(yīng)用,無(wú)絲毫拉踩之意。主要目的是透過(guò)當(dāng)前的各個(gè)框架對(duì)湖倉(cāng)領(lǐng)域的發(fā)展做一個(gè)基本的判斷和預(yù)測(cè)。

          湖倉(cāng)框架能力模型

          湖倉(cāng)領(lǐng)域開(kāi)源的幾個(gè)核心框架,基本著眼點(diǎn)都在「同一批流一體存儲(chǔ)服務(wù)」。那么湖倉(cāng)領(lǐng)域的框架應(yīng)該具備的能力包含:

          • 流式讀寫(xiě)

          應(yīng)該具備秒級(jí)的數(shù)據(jù)數(shù)據(jù)寫(xiě)入和數(shù)據(jù)增量消費(fèi)能力。

          并且如果湖倉(cāng)的框架想要取代Kafka的部分能力,這個(gè)RPS要求在千萬(wàn)級(jí)別,但是明顯目前是達(dá)不到的。在高RPS的業(yè)務(wù)場(chǎng)景中,湖倉(cāng)架構(gòu)不是一個(gè)很好的選擇,因?yàn)樾阅芷款i明顯,什么都想做的結(jié)果就是什么都不能做到極致,

          • 批式讀寫(xiě)

          在批讀和批寫(xiě)方面應(yīng)該完全涵蓋Hive的能力,并且提供分區(qū)并發(fā)更新、主鍵更新等額外能力,絕大多數(shù)情況下吞吐量應(yīng)該持平Hive。

          此外,湖倉(cāng)領(lǐng)域的框架需要探索例如部分列更新、維度表等能力,這些能力也是湖倉(cāng)的框架明顯優(yōu)于傳統(tǒng)數(shù)據(jù)方向框架的標(biāo)志,目前在各個(gè)框架都有在推進(jìn)中,十分期待。

          • 多引擎集成

          湖倉(cāng)的框架要考慮跟Spark、Flink、Presto等引擎進(jìn)行高度的集成,不能厚此薄彼。

          • 其他

          集中在一些額外的擴(kuò)展能力,這些能力在傳統(tǒng)的數(shù)倉(cāng)框架中不具備/較弱的能力,例如Changelog的聚合、外表掛載等等。

          解決的主要問(wèn)題

          首先需要明確的是,湖倉(cāng)是解決特定場(chǎng)景下問(wèn)題的能力,基于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的不足而產(chǎn)生的,不存在完全替代xx,只是在特定領(lǐng)域解決特定問(wèn)題的更優(yōu)的解決方案。

          在湖倉(cāng)領(lǐng)域,通常我們解決的問(wèn)題有傳統(tǒng)鏈路不能解決或者成本較高的部分。

          我們隨便舉幾個(gè)例子:

          我們可以基于Hudi/Paimon的表直接進(jìn)行分析,在流讀場(chǎng)景取代Kafka的部分能力,解決Kafka對(duì)查詢(xún)分析能力的弱支持;

          基于OLAP成本過(guò)高,通過(guò)掛在外部表實(shí)現(xiàn)存儲(chǔ)、計(jì)算分離,鏈路解耦;

          在批讀場(chǎng)景解決主鍵更新問(wèn)題,有效減少下游計(jì)算的排序去重成本等等。

          這些能力是原來(lái)的離線和實(shí)時(shí)鏈路不具備的能力,或者支持較弱,需要額外的開(kāi)發(fā)成本,從開(kāi)發(fā)效率、質(zhì)量和穩(wěn)定性等方向綜合考量的結(jié)果,是可以通過(guò)湖倉(cāng)鏈路進(jìn)行替代。

          最后

          湖倉(cāng)領(lǐng)域發(fā)展趨勢(shì)很好,在國(guó)內(nèi)的幾家大廠已經(jīng)有了成熟的應(yīng)用,并且在替代原有鏈路上在進(jìn)行積極的探索。

          未來(lái)大家會(huì)看到,湖倉(cāng)領(lǐng)域框架的能力越強(qiáng),傳統(tǒng)的數(shù)據(jù)開(kāi)發(fā)的理論和開(kāi)發(fā)模式越容易被替代。等到湖倉(cāng)框架大成的那一天,也許大家已經(jīng)掌握的技能又要全部推翻重來(lái)了。

          300萬(wàn)字!全網(wǎng)最全大數(shù)據(jù)學(xué)習(xí)面試社區(qū)等你來(lái)!


          如果這個(gè)文章對(duì)你有幫助,不要忘記 「在看」 「點(diǎn)贊」 「收藏」 三連啊喂!

          全網(wǎng)首發(fā)|大數(shù)據(jù)專(zhuān)家級(jí)技能模型與學(xué)習(xí)指南(勝天半子篇)
          互聯(lián)網(wǎng)最壞的時(shí)代可能真的來(lái)了
          我在B站讀大學(xué),大數(shù)據(jù)專(zhuān)業(yè)
          我們?cè)趯W(xué)習(xí)Flink的時(shí)候,到底在學(xué)習(xí)什么?
          193篇文章暴揍Flink,這個(gè)合集你需要關(guān)注一下
          Flink生產(chǎn)環(huán)境TOP難題與優(yōu)化,阿里巴巴藏經(jīng)閣YYDS
          Flink CDC我吃定了耶穌也留不住他!| Flink CDC線上問(wèn)題小盤(pán)點(diǎn)
          我們?cè)趯W(xué)習(xí)Spark的時(shí)候,到底在學(xué)習(xí)什么?
          在所有Spark模塊中,我愿稱(chēng)SparkSQL為最強(qiáng)!
          硬剛Hive | 4萬(wàn)字基礎(chǔ)調(diào)優(yōu)面試小總結(jié)
          數(shù)據(jù)治理方法論和實(shí)踐小百科全書(shū)
          標(biāo)簽體系下的用戶畫(huà)像建設(shè)小指南
          4萬(wàn)字長(zhǎng)文 | ClickHouse基礎(chǔ)&實(shí)踐&調(diào)優(yōu)全視角解析
          【面試&個(gè)人成長(zhǎng)】社招和校招的經(jīng)驗(yàn)之談
          大數(shù)據(jù)方向另一個(gè)十年開(kāi)啟 |《硬剛系列》第一版完結(jié)
          我寫(xiě)過(guò)的關(guān)于成長(zhǎng)/面試/職場(chǎng)進(jìn)階的文章
          當(dāng)我們?cè)趯W(xué)習(xí)Hive的時(shí)候在學(xué)習(xí)什么?「硬剛Hive續(xù)集」

          瀏覽 200
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日韩黄色一级视频 | 欧美pmⅴ | 草逼片 | 乳大有奶水风流少妇 | 国产黄色三级 |