Apache HudiUber 大數(shù)據(jù)存儲(chǔ)系統(tǒng)
Hudi 是 Uber 在 2016 年以“Hoodie”為代號(hào)開(kāi)發(fā),旨在解決 Uber 大數(shù)據(jù)生態(tài)系統(tǒng)中需要插入更新及增量消費(fèi)原語(yǔ)的攝取管道和 ETL 管道的低效問(wèn)題。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,從而進(jìn)一步推進(jìn)了 Uber 的開(kāi)源承諾,保證 Apache Hudi 可以在 Apache 軟件基金會(huì)的開(kāi)放治理和指導(dǎo)下長(zhǎng)期可持續(xù)性地增長(zhǎng)。
Hudi 是一個(gè)通用的大數(shù)據(jù)存儲(chǔ)系統(tǒng),主要特性:
- 快速,可插入索引的Upsert支持
- 通過(guò)回滾支持以原子方式發(fā)布數(shù)據(jù)
- 作者與查詢之間的快照隔離
- 數(shù)據(jù)恢復(fù)保存點(diǎn)
- 使用統(tǒng)計(jì)信息管理文件大小,布局
- 行和列數(shù)據(jù)的異步壓縮
- 時(shí)間軸元數(shù)據(jù)以跟蹤 lineage
Hudi 目前管理著 4000 多個(gè)表,這些表在 Uber 上存儲(chǔ)了幾 PB 的數(shù)據(jù),同時(shí)將 Apache Hadoop 倉(cāng)庫(kù)訪問(wèn)延遲從幾個(gè)小時(shí)降低到 30 分鐘以下,這證明了它的可伸縮性。Hudi 還為數(shù)百個(gè)增量數(shù)據(jù)管道提供了支撐,與該公司以前使用的解決方案相比,它的成本更低,效率更高。
評(píng)論
圖片
表情
