大模型時代下,湖倉一體化架構選型與挑戰(zhàn)
共 3536字,需瀏覽 8分鐘
·
2024-06-13 14:32
Lakehouse作為一種創(chuàng)新的開放架構,巧妙融合了數(shù)據(jù)湖與數(shù)據(jù)倉庫的精華特質。通過整合數(shù)據(jù)湖的非結構化數(shù)據(jù)存儲能力和數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理功能,實現(xiàn)了數(shù)據(jù)湖和數(shù)據(jù)倉庫的無縫連接,使得數(shù)據(jù)和計算在湖和倉之間自由流動,從而更好地發(fā)揮出數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的成長性。
隨著技術的不斷發(fā)展和成熟,Lakehouse正逐漸從概念驗證階段過渡到實際應用階段,越來越多的企業(yè)開始采用Lakehouse作為其數(shù)據(jù)存儲和管理的解決方案。阿里巴巴集團多年前便借助Apache Hudi等開源技術打造了自研Lakehouse平臺,實現(xiàn)了數(shù)據(jù)湖和數(shù)據(jù)倉庫的無縫對接。目前,這一架構已應用于阿里巴巴內部的電商、物流、金融等多個領域,有效提升了數(shù)據(jù)處理效率,并深化了業(yè)務洞察力。
在大模型時代,企業(yè)將如何進行湖倉一體化架構選型?下一代Lakehouse架構方向又在哪里?未來面臨著怎么樣的挑戰(zhàn)?讓我們在 6 月 15 日舉辦的以「大模型時代的 OLAP 技術演進」為主題的第 58 屆 DataFunSummit:OLAP 線上峰會中,「Lakehouse 湖倉一體化架構」論壇上看頭部企業(yè)如何做!精彩內容,掃碼報名,免費參會。
探訪大廠,Lakehouse 湖倉一體化架構風向標
本次Lakehouse湖倉一體化架構論壇的出品人程力老師,來自騰訊云。身為騰訊云數(shù)據(jù)湖存儲的負責人,他對數(shù)據(jù)湖倉存儲架構有著深入的理解與豐富的實踐經驗。此外,程力老師還積極參與開源項目,擔任Apache Hadoop Committer及Apache Ozone PMC的角色。
在本次論壇上,程力老師將運用他的經驗與知識,精選出更具借鑒價值的精品內容,分享給廣大聽眾。同時,論壇還邀請了阿里云、騰訊云、百度智能云等業(yè)界頂尖專家,他們將為我們詳細解析新一代湖倉一體化架構的演進歷程。
演講議題一:Apache Paimon:新一代實時湖倉極速 OLAP 體驗
嘉賓:葉俊豪 阿里云研發(fā)工程師 Apache Paimon Committer
個人介紹:Apache Paimon committer,3年流引擎開發(fā)經驗,1年數(shù)據(jù)湖開發(fā)經驗.
演講摘要:本次演講將深入探討 Paimon Lakehouse 架構的實時入湖技術、Z-order/Hilbert 加速湖上分析、Paimon 自有索引框架及可拓展索引建設、Delection Vector 實現(xiàn)主鍵表極致分析性能以及全流程建設高性能 OLAP 實時數(shù)據(jù)湖案例。
演講提綱:
1.實時入湖:Paimon lakehouse 架構底層技術剖析
2.Clustering:Z-order / Hilbert 加速湖上分析
3.File Index:Paimon 自有索引框架及可拓展索引建設
4.Delection Vector :主鍵表極致分析性能原理及實現(xiàn)
5.全流程建設:建設高性能 OLAP 實時數(shù)據(jù)湖案例
聽眾收益:
1.數(shù)據(jù)湖 OLAP 性能提升原理
2.實時數(shù)據(jù)湖架構解析
3.如何構建高性能 OLAP 實時數(shù)據(jù)湖
演講議題二:下一代湖倉加速存儲 GooseFS 在實時 OLAP 搜索場景中的實踐與優(yōu)化
嘉賓:于飏 騰訊云 COS 對象存儲團隊資深高級工程師
個人介紹:碩士畢業(yè)于西安電子科技大學,一直專注云端對象存儲相關技術的研發(fā)工作,Hadoop-COS(CosN 文件系統(tǒng))作者/ Flink-COS 作者以及 COS 多項內部系統(tǒng)作者,Hadoop/Alluxio Contributor,GooseFS 核心 Founder,內核架構與核心特性設計與開發(fā)者。
演講摘要:騰訊云對象存儲中心推出的 GooseFS 加速存儲產品,從最初加速湖倉應用場景下的海量吞吐與數(shù)據(jù)本地化調度,已經擴展演進到了實時 OLAP 引擎場景。通過引入 Page 小粒度的數(shù)據(jù)緩存設計以及元數(shù)據(jù)緩存,顯著降低了溫冷數(shù)據(jù)的查詢預熱延遲。通過構建兩級緩存架構與混合部署,讓整個基于對象存儲架構構建的查詢性能與成本達到了較優(yōu)的水平。
本次分享會著重介紹 GooseFS 在應對騰訊內部實時 OLAP 業(yè)務對于溫冷數(shù)據(jù)的低延遲訪問需求上所做的優(yōu)化實踐與效果突破。
演講提綱:
1.GooseFS 加速存儲的核心架構
2.GooseFS 在騰訊內部實時 OLAP 搜索場景上的應用落地
3.GooseFS 在低延遲查詢搜索請求上的架構演進與性能優(yōu)化
4.總結
聽眾收益:
1.OLAP 系統(tǒng)如何基于云端對象存儲構建分級緩存加速
2.面向通用場景的大規(guī)模分布式緩存如何應對低延遲搜索查詢請求
3.分布式緩存系統(tǒng)如何在資源和成本上的實踐經驗
演講議題三:基于 Native 技術加速 Spark 計算引擎
演講嘉賓:張志宏 百度智能云大數(shù)據(jù)平臺部資深工程師
個人介紹:2007 年碩士畢業(yè)于中山大學數(shù)學與計算科學學院,2013 年加入百度。在百度期間一直從事大數(shù)據(jù)相關工作,參與了百度大數(shù)據(jù)平臺建設、大數(shù)據(jù)私有化、公有云等相關項目,最近重點推進 Spark 性能優(yōu)化相關工作。
演講題目:基于 Native 技術加速 Spark 計算引擎
演講摘要:Apache Spark 自從 2013 年由 Berkeley amplab 捐獻給 Apache 社區(qū)以來,一直處于開源大數(shù)據(jù)領域的領頭羊位置。不過由于其以行式的數(shù)據(jù)組織形式運行在 JVM 中的特性,導致其性能有很大的提升空間,這也是最近降本增效大背景下的強需求。百度智能云 BMR 團隊通過將 ClickHouse 替換 Spark 物理執(zhí)行引擎的方式,實現(xiàn)了 Spark 數(shù)據(jù)處理計算任務全部跑在 C++ 上的效果,在保證 Spark 語義、調度框架不變的情況下,實現(xiàn)了 TPCDS 2.3 倍的性能提升。
演講提綱:
1. Spark 性能優(yōu)化背景
2. ClickHouse 性能優(yōu)勢解析
3. Spark Native 加速方案設計和實現(xiàn)
4. 加速效果分析
聽眾收益:
1.從 Runtime 的角度理解 Spark 性能表現(xiàn)
2.了解基于 Native 編碼技術加速大數(shù)據(jù)引擎的解決方案
3.部分了解 ClickHouse 性能優(yōu)勢
4.部分了解不同類型大數(shù)據(jù)任務優(yōu)化方案
本次峰會還策劃了開源 OLAP 技術、云原生數(shù)倉、生成式 AI 在 OLAP 的應用、Lakehouse 湖倉一體化架構、實時數(shù)倉以及 OLAP 能效提升等分論壇,所有論壇都將全程直播,識別下方二維碼即可免費報名參會。
歡迎掃描上方二維碼或點擊「閱讀原文」報名收看,一起了解大模型時代的 OLAP 技術趨勢。
閱讀原文:DataFun活動報名
