AliExpress基于Flink的廣告實時數(shù)倉建設

Hi,我是王知無,一個大數(shù)據(jù)領域的原創(chuàng)作者。? 放心關注我,獲取更多行業(yè)的一手消息。
建設背景
廣告是目前互聯(lián)網(wǎng)流量變現(xiàn)的一種重要手段,廣告投放的優(yōu)化很大程度上依賴于廣告效果數(shù)據(jù),依托于廣告曝光、點擊、消耗、訂單等指標調(diào)整廣告投放策略,以達到最優(yōu)投放效果。前期主要提供T+1效果數(shù)據(jù),投放策略往往需要第二天才能做出調(diào)整,不能及時做出投放優(yōu)化,特別在一些大促場景,實時優(yōu)化顯得尤為重要,需要及時調(diào)整例如人群、地域、出價等策略,以此為背景建設實時數(shù)據(jù)鏈路。

目前實時數(shù)據(jù)的場景主要有以下幾種:
實時大屏:提供給運營、產(chǎn)品使用,展示核心的業(yè)務指標:曝光、點擊、消耗等數(shù)據(jù)。
實時特征:提供給算法使用,統(tǒng)計用戶維度的行為數(shù)據(jù)。
商家看板:提供給商家使用,展示商家的在不同維度的曝光、點擊、消耗等數(shù)據(jù)。
多維分析:提供給運營、分析師使用,實時分析廣告數(shù)據(jù)。
技術架構
依托新一代實時計算引擎Flink的興起,在超高性能、數(shù)據(jù)一致性保障、SQL化編程方式等特點下推動了實時數(shù)倉的發(fā)展。
當前的整體技術架構圖如下:

在數(shù)據(jù)加工側,使用Flink作為計算引擎,HBASE作為維表存儲數(shù)據(jù)庫,F(xiàn)link任務在處理的過程中會做一些數(shù)據(jù)解析、規(guī)范化、打寬、聚合等操作;
在數(shù)據(jù)服務側,使用兩種不同的存儲引擎HBASE與Hologres,HBASE提供KV查詢,應用于實時大屏、商家看板等固化查詢場景,?Hologres用于在線分析,應用于多維分析等場景,提供多維分析能力。二者由統(tǒng)一數(shù)據(jù)接口服務封裝,對外提供查詢。
數(shù)倉架構
數(shù)倉的分層搭建需要從復用、成本、質(zhì)量、擴展性等方面去考慮,實時數(shù)倉的搭建,包括層次劃分、命名、主題域劃分、數(shù)據(jù)域劃分與離線相差不大,目前劃分層次如下:

應用層:按照應用場景劃分為實時大屏、商家后臺實時指標、實時特征、實時多維分析,提供了不同維度的曝光、點擊、消耗等數(shù)據(jù)。
層次更少:離線中會存在匯總層與集市層,但是對于實時來說層次越多延時就越大,另外問題排查的難度就越大;
注重維度整合:離線中一般情況下大寬表出現(xiàn)在集市層,但是對于實時來說,在構建DWD層已經(jīng)完成了維度整合操作,避免下游join操作,也就是通過空間換時間的策略。
實時OLAP
運營對于廣告數(shù)據(jù)需求的多變性
對mysql中的數(shù)據(jù)需要某個時間點的分析結果指標
mysql中的數(shù)據(jù)是可變的,經(jīng)常會執(zhí)行一些update操作,例如廣告預算數(shù)據(jù),預算是可實時變更的,需要知道每小時整的預算額。使用Flink去處理這類問題成本比較高、并且也不可復用。
基于以上問題,提出了實時OLAP的架構。

將明細數(shù)據(jù)通過Flink處理寫入OLAP中,基于OLAP一方面完成在線數(shù)據(jù)查詢,另外一方面通過離線調(diào)度處理OLAP中數(shù)據(jù),進行一個簡單的分層處理,最終提供給上層查詢服務使用。
實時保障
整個實時數(shù)據(jù)體系保障,可分為穩(wěn)定性保障、數(shù)據(jù)質(zhì)量保障兩個方面。
穩(wěn)定性保障
數(shù)據(jù)質(zhì)量保障
未來規(guī)劃
實時DWS層建設
實時OLAP 的深度應用
基于Hologres的HASP架構簡化數(shù)倉架構

2022年全網(wǎng)首發(fā)|大數(shù)據(jù)專家級技能模型與學習指南(勝天半子篇)
Flink生產(chǎn)環(huán)境TOP難題與優(yōu)化,阿里巴巴藏經(jīng)閣YYDS
Flink CDC我吃定了耶穌也留不住他!| Flink CDC線上問題小盤點
硬剛Hive | 4萬字基礎調(diào)優(yōu)面試小總結
4萬字長文 | ClickHouse基礎&實踐&調(diào)優(yōu)全視角解析
【面試&個人成長】2021年過半,社招和校招的經(jīng)驗之談
大數(shù)據(jù)方向另一個十年開啟 |《硬剛系列》第一版完結
