<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

Hudi 實踐 | 快手基于 Apache Hudi 的實踐

HBase技術社區(qū)

共 1261字，需瀏覽 3分鐘

·

2021-07-12 21:50

分享一篇Apache Hudi在快手的實踐，如何使用Apache Hudi解決效率問題

分享者為靳國衛(wèi)，快手大數據研發(fā)專家，負責用戶增長數據團隊

分為三部分介紹Hudi如何解決效率問題，首先是實際應用中遇到的痛點有哪些，業(yè)務訴求是什么，然后調研業(yè)界的解決方案，為什么選擇Hudi來解決痛點問題，然后介紹在實踐中如何使用Hud解決業(yè)務問題，并形成體系化的解決方案。

業(yè)務痛點包括數據調度、數據同步和修復回刷三大類痛點，包括數據全量回刷效率低。

三個場景拉通來看，從業(yè)務訴求就是希望更快看到結果，像業(yè)務庫那樣數據準備好了就可以使用，由于業(yè)務庫引擎限制，又希望使用大數據技術做分析，總的來看可以結合實時化和大數據的CRUD。

在業(yè)界進行調研后，發(fā)現有一些解決方案，但最后為什么選擇了Hudi呢？

對比了現在業(yè)界通用的解決方案，并且從功能豐富度、與公司痛點匹配度、自動化程度、與Flink集成、社區(qū)活躍度等方面考慮，快手最后選擇Hudi作為解決方案。

首先來看Hudi的架構體系，通過Spark/Flink將上游數據同步到數據湖的Raw Tables中，并可對Raw Tables進行增刪改查，與快手內部需求及痛點匹配度非常高。

下面來看數據在Hudi的寫入流程，從Kafka中取數據時會先進行一次rebalance來預防數據熱點問題，然后對數據進行合并后進行檢索，最后會丟棄一部分無用數據（重復或亂序到達的數據）。

經過數據寫入后Parquet文件格式存在，其結構包括數據、Footter（包含一些元數據信息）等，Hudi是一個數據存儲解決方案，可以解決離線數倉中的增刪改問題。

接下來從實踐的角度來看Hudi如何解決業(yè)務問題

對大量數據進行大量更新時效性差，SLA壓力大，另外就是數據局部更新資源浪費嚴重。

Hudi的模型設計與傳統(tǒng)的離線數倉模型設計不相同，認知上有所不同。

另外一個挑戰(zhàn)是Hudi的寫模型設計，包括主鍵、分區(qū)設計以及一些策略的設計等。

基于Hudi的模型，對數據同步模型進行了設計，來解決千億級數據量的億級更新問題。

確定合適的分區(qū)和文件大小來解決數據更新中的毛刺問題

對于數據回刷場景下的局部更新也有了很好的解決，沉淀了一套通用解決方案。

還有一個挑戰(zhàn)是如何保障Hudi作業(yè)正常運行，包括設計流程、時效性和準確性幾方面做了一些建設。

使用Hudi方案后取得了很好的效果，包括時效、資源、基于Hudi的通用解決方案等方面效果都非常不錯。

推薦閱讀

Apache Hudi測試、運維操作萬字總結

Streaming與Hudi、Hive湖倉一體！

觸寶科技基于Apache Hudi的流批一體架構實踐

Apache Hudi在Hopsworks機器學習的應用

通過Z-Order技術加速Hudi大規(guī)模數據集分析方案

瀏覽 72

點贊

收藏

分享

舉報

評論

圖片

表情

Hudi 實踐 | Leboncoin 基于 Apache Hudi 構建 Lakehouse 實踐

每天約有 800 萬獨立訪問者訪問 Leboncoin，到 2022 年，該網站每月有超過 1000 億次 HTTP 調用并且啟動和運行 700 個應用程序，使其成為訪問量最大的法國網站之一。數據平臺團隊負責構建和維護平臺基礎設施以及開...

Hudi 實踐 | Robinhood 基于 Apache Hudi 的下一代數據湖實踐

HBase技術社區(qū)

Hudi 實踐 | 客路旅行基于 Apache Hudi 的數據湖實踐

HBase技術社區(qū)

Hudi 實踐 | OnZoom 基于 Apache Hudi 的流批一體架構實踐

HBase技術社區(qū)

Hudi 實踐｜阿里云基于 Apache Hudi 構建 Lakehouse 實踐探索

HBase技術社區(qū)

Hudi 實踐 | 基于 Apache Hudi + Flink 的億級數據入湖實踐

HBase技術社區(qū)

Hudi 實踐 | 基于Apache Hudi 的 CDC 數據入湖

HBase技術社區(qū)

Hudi 實踐 | 基于 Apache Hudi 構建分析型數據湖

HBase技術社區(qū)

Hudi 實踐 | Apache Hudi 刪除數據的多種姿勢

HBase技術社區(qū)

Hudi 實踐 | 字節(jié)跳動基于 Apache Hudi 構建 EB 級數據湖實踐

HBase技術社區(qū)

點贊

收藏

分享

舉報

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

国产美女高潮视频 | 超碰97自拍 | 久草新| 在线超碰99 | 老鸭窝永久地址 |