Hudi 集成 | AWS升級對Apache Hudi的集成
H
全球最大云廠商AWS的 Athena 團隊又更新了 Athena 與 Apache Hudi[1] 的集成,以支持新功能及最新的 0.8.0 社區(qū)版本。早在Apache Hudi還處于孵化階段時,AWS Athena 便集成了 Hudi 以支持廣大客戶在S3上變更數(shù)據(jù)的需求,隨著Hudi被全球各大云廠商集成,Hudi作為云上數(shù)據(jù)湖解決方案的熱度持續(xù)升溫,其價值也得到了全球廣大用戶的認可。
Hudi 是一種開源數(shù)據(jù)管理框架,可以用于簡化 S3 數(shù)據(jù)湖中的增量數(shù)據(jù)處理和數(shù)據(jù)管道開發(fā)工作。歡迎掃描二維碼給 Hudi 送 Star & Fork
現(xiàn)在能夠使用 Athena 查詢通過 Amazon EMR、Apache Spark、Apache Hive 或其他兼容服務管理的 Hudi 0.8.0 表,并且現(xiàn)在支持快照查詢和讀取引導表,這意味著可以通過 Athena 實時查詢 MOR 類型表中的 log 日志文件,以及將 Parquet 表原地轉(zhuǎn)化成的Hudi表(無需復制數(shù)據(jù))。
Apache Hudi 提供記錄級數(shù)據(jù)處理,可幫助您簡化變更數(shù)據(jù)捕獲(CDC)管道的開發(fā),遵守歐盟《一般數(shù)據(jù)保護條例(GDPR)》驅(qū)動的更新和刪除,并更好地管理來自需要數(shù)據(jù)插入和事件更新的傳感器或設備的串流數(shù)據(jù)。0.8.0 版本可以更輕松地將大型 Parquet 表遷移到Hudi(而無需復制數(shù)據(jù)),以便通過 Athena 對其進行查詢和分析。此外借助 Athena 全新推出的對快照查詢的支持,現(xiàn)在可以近乎實時地查看對表的更新。
推薦閱讀
恭喜!Apache Hudi社區(qū)新晉多名頂級互聯(lián)網(wǎng)公司Committer
