<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)湖 Hudi | 致廣大數(shù)據(jù)湖用戶的一封信

          共 1377字,需瀏覽 3分鐘

           ·

          2021-04-22 12:41


          隨著數(shù)據(jù)湖概念的流行,涌現(xiàn)了很多關(guān)于Apache Hudi的文章,但很多文章在闡述時僅僅將Hudi當做一種表格式,這引發(fā)了社區(qū)的思考,思考Hudi的愿景到底是什么,并且在Hudi社區(qū)發(fā)起了討論重新審視Hudi。

          我們更傾向于將Hudi當做一個數(shù)據(jù)湖平臺,不僅包含表格式,還包含支持事務(wù)的存儲層?;?strong style="font-family: Optima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 1.5px;text-align: left;white-space: normal;-webkit-tap-highlight-color: transparent;color: rgb(15, 76, 129);line-height: 1.75;">數(shù)據(jù)湖平臺的新愿景重新設(shè)計了Hudi的生態(tài)架構(gòu)圖。

          至此Hudi已經(jīng)提供了如下能力:

          ?表格式:存儲表Schema;Metadata表,存儲文件列表,未來該表還會擴展存儲列信息及其他助于寫入和查詢優(yōu)化的信息,更多詳情請參考 RFC-27 Data skipping index to improve query performance?輔助元數(shù)據(jù):bloom filters,記錄級別索引,bitmap/interval tree和其他更高級的基于硬盤的數(shù)據(jù)結(jié)構(gòu)。?并發(fā)控制:支持MVCC(將寫入按時間排序序列化至日志中),現(xiàn)在0.8.0版本還支持批處理合并工作負載的OCC樂觀并發(fā)控制,未來計劃多表和完全非阻塞寫入,更多詳情請參考RFC - 22 : Snapshot Isolation using Optimistic Concurrency Control for multi-writers?更新/刪除:這是Hudi提供的關(guān)鍵能力,支持主鍵/唯一鍵約束,將來支持跨表事務(wù)后還可支持外鍵。?表服務(wù):現(xiàn)在Hudi pipeline是自管理的,如文件大小、自動清理、壓縮、聚簇數(shù)據(jù)、冷啟動數(shù)據(jù)。所有的服務(wù)絕多數(shù)情況都可以獨立運行而不阻塞其他服務(wù)。?數(shù)據(jù)服務(wù):提供實用工具程序Deltastreamer,提供更高級別的功能,如攝取DFS數(shù)據(jù)源,Kafka源和即將推出的Pulsar數(shù)據(jù)源等等),增量ETL支持,重復(fù)數(shù)據(jù)刪除,提交回調(diào),即將到來的預(yù)提交驗證、錯誤表等。另外還可以朝著流出口、數(shù)據(jù)監(jiān)控方向擴展。

          我們也可以構(gòu)建以下內(nèi)容(視情況而定討論/RFC)

          ?緩存服務(wù):提供Hudi特有的緩存服務(wù),可以保存可變數(shù)據(jù)并為跨引擎提供查詢數(shù)據(jù)。?時間軸元服務(wù)器:現(xiàn)在已經(jīng)在Spark中支持元服務(wù)器,可由RocksDB甚至Hudi的元數(shù)據(jù)表支持,我們可以把它變成一個可擴展、分片的元數(shù)據(jù)存儲服務(wù),所有引擎都可以使用它來獲取任何元數(shù)據(jù)。

          為此我建議將我們更名為數(shù)據(jù)湖平臺,而不是“通過DFS(HDFS或云存儲)來攝取和管理大型分析數(shù)據(jù)集的存儲和管理”。并傳達我們的愿景,其實我們已經(jīng)為此做了一些努力,新的愿景也將為新的貢獻者提供一個很好的視角來審視該項目。

          這與Kafka從Pub-Sub系統(tǒng)演變?yōu)榱魇录脚_(加上MirrorMaker / Connect等)非常類似。

          具體討論鏈接如下:

          https://lists.apache.org/thread.html/r1490dc439430594482ad0db45d1cb95dc0a53ea2765866d443e809c8%40%3Cdev.hudi.apache.org%3E

          瀏覽 54
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  波多野结衣黄色视频 | 国产se在线 | 黄色色情网战在线观看 | 爱情岛亚洲品质自拍视频 | 欧美性受XXXX黑人XYX |