Amoro???????流式湖倉服務(wù)
Amoro(原名 Arctic)是一個(gè)基于開放數(shù)據(jù)湖格式構(gòu)建的 Lakehouse 管理系統(tǒng)。Amoro 與 Flink、Spark 和 Trino 等計(jì)算引擎合作,為 Lakehouse 帶來可插拔和自我管理的功能,提供開箱即用的數(shù)據(jù)倉庫體驗(yàn),并幫助數(shù)據(jù)平臺或產(chǎn)品輕松構(gòu)建基礎(chǔ)設(shè)施解耦、流式傳輸和-批量融合和湖泊原生架構(gòu)。
架構(gòu)
- AMS:Amoro管理服務(wù)提供Lakehouse管理功能,如自優(yōu)化、數(shù)據(jù)過期等。它還為所有計(jì)算引擎提供統(tǒng)一的目錄服務(wù),也可以與現(xiàn)有的元數(shù)據(jù)服務(wù)結(jié)合。
- 插件:Amoro 提供了多種外部插件可供選擇,以滿足不同的場景。
- 優(yōu)化器:自優(yōu)化執(zhí)行引擎插件對所有類型表格式表異步執(zhí)行合并、排序、去重、布局優(yōu)化等操作。
- Terminal:SQL命令行工具,提供本地Spark、Kyuubi等多種實(shí)現(xiàn)。
- LogStore:基于Kafka、Pulsar等消息隊(duì)列,提供毫秒級到秒級的SLA,用于實(shí)時(shí)數(shù)據(jù)處理。
支持的表格格式
Amoro可以管理不同表格式的表,類似于MySQL/ClickHouse可以選擇不同的存儲引擎。Amoro通過使用不同的表格格式來滿足不同的用戶需求。目前,Amaro 支持三種表格格式:
- Iceberg格式:指使用Apache Iceberg原生的表格式,具有Iceberg的所有功能和特性。
- 混合Iceberg格式:建立在Iceberg格式之上,可以利用LogStore加速數(shù)據(jù)處理,并在CDC場景下提供更高效的查詢性能和流式讀取能力。
- 混合 Hive 格式:與混合 Iceberg 表具有相同的功能,但與 Hive 表兼容。支持將Hive表升級為Mixed Hive表,并在升級后允許Hive原生的讀寫方法。
特性
- 自我優(yōu)化 - 持續(xù)優(yōu)化表,包括壓縮小文件、更改文件、定期刪除過期文件,以保持較高的查詢性能并降低存儲成本。
- 多種格式 - 支持Iceberg、Mixed-Iceberg、Mixed-Hive等不同表格式,滿足不同場景需求,并提供統(tǒng)一管理能力。
- 目錄服務(wù) - 為所有計(jì)算引擎提供統(tǒng)一的目錄服務(wù),也可以與現(xiàn)有的元數(shù)據(jù)存儲服務(wù)(例如 Hive Metastore 和 AWS Glue)一起使用。
- 豐富的插件 - 提供各種插件與其他系統(tǒng)集成,例如使用 Flink 進(jìn)行持續(xù)優(yōu)化以及使用 Spark 和 Kyuubi 進(jìn)行數(shù)據(jù)分析。
- 管理工具 - 提供多種管理工具,包括WEB UI和標(biāo)準(zhǔn)SQL命令行,幫助你更快上手并更輕松地與其他系統(tǒng)集成。
- 基礎(chǔ)設(shè)施獨(dú)立 - 可以在私有環(huán)境、云環(huán)境、混合云環(huán)境、多云環(huán)境中輕松部署和使用。
評論
圖片
表情
