<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          企業(yè)大數(shù)據(jù)平臺(tái)倉庫架構(gòu)建設(shè)思路

          共 3585字,需瀏覽 8分鐘

           ·

          2021-07-21 22:17


          作者介紹
          李金波,阿里云高級(jí)技術(shù)專家,大數(shù)據(jù)數(shù)倉解決方案總架構(gòu)師,8年以上互聯(lián)網(wǎng)數(shù)據(jù)倉庫經(jīng)歷,對(duì)系統(tǒng)架構(gòu)、數(shù)據(jù)架構(gòu)擁有豐富的實(shí)戰(zhàn)經(jīng)驗(yàn),曾任數(shù)據(jù)魔方、淘寶指數(shù)的數(shù)據(jù)架構(gòu)設(shè)計(jì)專家。

          本文作者主要從總體思路、模型設(shè)計(jì)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)治理四個(gè)方面介紹了如何利用大數(shù)據(jù)平臺(tái)的特性,構(gòu)建更貼合大數(shù)據(jù)應(yīng)用的數(shù)據(jù)倉庫。

          總體思路


          隨著互聯(lián)網(wǎng)規(guī)模不斷的擴(kuò)大,數(shù)據(jù)也在爆炸式地增長,各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)不斷地產(chǎn)生。新環(huán)境下的數(shù)據(jù)應(yīng)用呈現(xiàn)業(yè)務(wù)變化快、數(shù)據(jù)來源多、系統(tǒng)耦合多、應(yīng)用深度深等特征。那么基于這些特征,該如何構(gòu)建數(shù)據(jù)倉庫呢?我認(rèn)為應(yīng)該從穩(wěn)定、可信、豐富、透明四個(gè)關(guān)鍵詞入手。其中,穩(wěn)定要求數(shù)據(jù)的產(chǎn)出穩(wěn)定、有保障;可信意味著數(shù)據(jù)的質(zhì)量要足夠高;豐富是指數(shù)據(jù)涵蓋的業(yè)務(wù)面要足夠豐富;透明要求數(shù)據(jù)構(gòu)成流程體系是透明,讓用戶放心使用。


          我們之所以選擇基于大數(shù)據(jù)平臺(tái)構(gòu)建數(shù)據(jù)倉庫,是由大數(shù)據(jù)平臺(tái)豐富的特征決定的:

          • 強(qiáng)大的計(jì)算和存儲(chǔ)能力,使得更扁平化的數(shù)據(jù)流程設(shè)計(jì)成為可能,簡化計(jì)算過程

          • 多樣的編程接口和框架,豐富了數(shù)據(jù)加工的手段

          • 豐富的數(shù)據(jù)采集通道,能夠?qū)崿F(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的采集

          • 各種安全和管理措施,保障了平臺(tái)的可用性


          倉庫架構(gòu)設(shè)計(jì)原則包括四點(diǎn):

          第一自下而上結(jié)合自上而下的方式,保障數(shù)據(jù)搜集的全面性;
          第二高容錯(cuò)性,隨著系統(tǒng)耦合度的增加,任何一個(gè)系統(tǒng)出現(xiàn)問題都會(huì)對(duì)數(shù)倉服務(wù)產(chǎn)生影響,因此在數(shù)倉構(gòu)建時(shí),高容錯(cuò)性是必不可少的因素;
          第三數(shù)據(jù)質(zhì)量監(jiān)控需要貫穿整個(gè)數(shù)據(jù)流程,毫不夸張地說,數(shù)據(jù)質(zhì)量監(jiān)控消耗的資源可以等同于數(shù)據(jù)倉庫構(gòu)建的資源;

          第四無需擔(dān)心數(shù)據(jù)冗余,充分利用存儲(chǔ)換易用。


          模型設(shè)計(jì)

          構(gòu)建數(shù)倉的首要步驟就是進(jìn)行模型設(shè)計(jì)。


          維度莫建模或?qū)嶓w關(guān)系建模




          常見的模型設(shè)計(jì)思路包括維度建模和實(shí)體關(guān)系建模。維度建模實(shí)施簡單,便于實(shí)時(shí)數(shù)據(jù)分析,適用于業(yè)務(wù)分析報(bào)表和BI;實(shí)體關(guān)系建模結(jié)構(gòu)較復(fù)雜,但它便于主體數(shù)據(jù)打通,適合復(fù)雜數(shù)據(jù)內(nèi)容的深度挖掘。

          每個(gè)企業(yè)在構(gòu)建自己數(shù)倉時(shí),應(yīng)該根據(jù)業(yè)務(wù)形態(tài)和需求場景選擇合適的建模方式。對(duì)于應(yīng)用復(fù)雜性企業(yè),可以采用多種建模結(jié)合的方式,例如在基礎(chǔ)層采用維度建模的方式,讓維度更加清晰;中間層采用實(shí)體關(guān)系建模方式,使得中間層更容易被上層應(yīng)用使用。


          星型模型和雪花模型




          除了建模方式之外,在星型模型和雪花模型的選擇上也有可能讓使用者左右為難。事實(shí)上,兩種模型是并存的,星型是雪花模型的一種。理論上真實(shí)數(shù)據(jù)的模型都是雪花模型;實(shí)際數(shù)據(jù)倉庫中兩種模型是并存的。

          由于星型模型相對(duì)結(jié)構(gòu)簡單,我們可以在數(shù)據(jù)中間層利用數(shù)據(jù)冗余將雪花模型轉(zhuǎn)換成星型模型,從而有利于數(shù)據(jù)應(yīng)用和減少計(jì)算資源消耗。


          數(shù)據(jù)分層




          在確定建模思路和模型類型之后,下一步的工作是數(shù)據(jù)分層。數(shù)據(jù)分層可以使得數(shù)據(jù)構(gòu)建體系更加清晰,便于數(shù)據(jù)使用者快速對(duì)數(shù)據(jù)進(jìn)行定位;同時(shí)數(shù)據(jù)分層也可以簡化數(shù)據(jù)加工處理流程,降低計(jì)算復(fù)雜度。

          我們常用的數(shù)據(jù)倉庫的數(shù)據(jù)分層通常分為集市層、中間層、基礎(chǔ)數(shù)據(jù)層上下三層結(jié)構(gòu)。由傳統(tǒng)的多層結(jié)構(gòu)減少到上下三層結(jié)構(gòu)的目的是為了壓縮整體數(shù)據(jù)處理流程的長度,同時(shí)扁平化的數(shù)據(jù)處理流程有助于數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)運(yùn)維。

          在上下三層的結(jié)構(gòu)的右側(cè),我們?cè)黾恿肆魇綌?shù)據(jù),將其添加成數(shù)據(jù)體系的一部分。這是因?yàn)楫?dāng)前的數(shù)據(jù)應(yīng)用方向會(huì)越來越關(guān)注數(shù)據(jù)的時(shí)效性,越實(shí)時(shí)的數(shù)據(jù)價(jià)值度越高。

          但是,由于流式數(shù)據(jù)集的采集、加工和管理的成本較高,一般都會(huì)按照需求驅(qū)動(dòng)的方式建設(shè);此外,考慮到成本因素,流式數(shù)據(jù)體系的結(jié)構(gòu)更加扁平化,通常不會(huì)設(shè)計(jì)中間層。

          下面來具體看下每一層的作用。


          數(shù)據(jù)基礎(chǔ)層




          數(shù)據(jù)基礎(chǔ)層主要完成的工作包括以下幾點(diǎn):

          • 數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個(gè)平臺(tái)上

          • 數(shù)據(jù)清洗,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計(jì)算

          • 數(shù)據(jù)歸類,建立數(shù)據(jù)目錄,在基礎(chǔ)層一般按照來源系統(tǒng)和業(yè)務(wù)域進(jìn)行分類

          • 數(shù)據(jù)結(jié)構(gòu)化,對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進(jìn)行結(jié)構(gòu)化

          • 數(shù)據(jù)規(guī)范化,包括規(guī)范維度標(biāo)識(shí)、統(tǒng)一計(jì)量單位等規(guī)范化操作


          數(shù)據(jù)中間層




          數(shù)據(jù)中間層最為重要的目標(biāo)就是把同一實(shí)體不同來源的數(shù)據(jù)打通起來,這是因?yàn)楫?dāng)前業(yè)務(wù)形態(tài)下,同一實(shí)體的數(shù)據(jù)可能分散在不同的系統(tǒng)和來源,且這些數(shù)據(jù)對(duì)同一實(shí)體的標(biāo)識(shí)符可能不同。此外,數(shù)據(jù)中間層還可以從行為中抽象關(guān)系。從行為中抽象出來的基礎(chǔ)關(guān)系,會(huì)是未來上層應(yīng)用一個(gè)很重要的數(shù)據(jù)依賴。例如抽象出的興趣、偏好、習(xí)慣等關(guān)系數(shù)據(jù)是推薦、個(gè)性化的基礎(chǔ)生產(chǎn)資料。

          在中間層,為了保證主題的完整性或提高數(shù)據(jù)的易用性,經(jīng)常會(huì)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)冗余。比如某一實(shí)事數(shù)據(jù)和兩個(gè)主題相關(guān)但自身又沒有成為獨(dú)立主題,則會(huì)放在兩個(gè)主題庫中;為了提高單數(shù)據(jù)表的復(fù)用性和減少計(jì)算關(guān)聯(lián),通常會(huì)在事實(shí)表中冗余部分維度信息。


          數(shù)據(jù)集市層




          數(shù)據(jù)集市層是上下三層架構(gòu)的最上層,通常是由需求場景驅(qū)動(dòng)建設(shè)的,并且各集市間垂直構(gòu)造。在數(shù)據(jù)集市層,我們可以深度挖掘數(shù)據(jù)價(jià)值。值得注意的是,數(shù)據(jù)集市層需要能夠快速試錯(cuò)。

          數(shù)據(jù)架構(gòu)


          數(shù)據(jù)架構(gòu)包括數(shù)據(jù)整合、數(shù)據(jù)體系、數(shù)據(jù)服務(wù)三部分。其中,數(shù)據(jù)整合又可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三類。


          數(shù)據(jù)整合




          結(jié)構(gòu)化數(shù)據(jù)采集又可細(xì)分為全量采集、增量采集、實(shí)時(shí)采集三類。三種采集方式的各自特點(diǎn)和適應(yīng)場合如上圖所示,其中全量采集的方式最為簡單;實(shí)時(shí)采集的采集質(zhì)量最難控制。


          在傳統(tǒng)的架構(gòu)中,日志的結(jié)構(gòu)化處理是放在數(shù)倉體系之外的。在大數(shù)據(jù)平臺(tái)倉庫架構(gòu)中,日志在采集到平臺(tái)之前不做結(jié)構(gòu)化處理;在大數(shù)據(jù)平臺(tái)上按行符分割每條日志,整條日志存儲(chǔ)在一個(gè)數(shù)據(jù)表字段;后續(xù),通過UDF或MR計(jì)算框架實(shí)現(xiàn)日志結(jié)構(gòu)化。

          在我們看來,日志結(jié)構(gòu)越規(guī)范,解析成本越低。在日志結(jié)構(gòu)化的過程中,并不一定需要完全平鋪數(shù)據(jù)內(nèi)容,只需結(jié)構(gòu)化出重要常用字段;同時(shí),為了保障擴(kuò)展性,我們可以利用數(shù)據(jù)冗余保存原始符合字段(如useragent字段)。


          非結(jié)構(gòu)化的數(shù)據(jù)需要結(jié)構(gòu)化才能使用。非結(jié)構(gòu)化數(shù)據(jù)特征提取包括語音轉(zhuǎn)文本、圖片識(shí)別、自然語言處理、圖片達(dá)標(biāo)、視頻識(shí)別等方式。盡管目前數(shù)倉架構(gòu)體系中并不包含非結(jié)構(gòu)化數(shù)據(jù)特征提取操作,但在未來,這將成為可能。


          數(shù)據(jù)服務(wù)化




          數(shù)據(jù)服務(wù)化包括統(tǒng)計(jì)服務(wù)、分析服務(wù)和標(biāo)簽服務(wù):

          • 統(tǒng)計(jì)服務(wù)主要是偏傳統(tǒng)的報(bào)表服務(wù),利用大數(shù)據(jù)平臺(tái)將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫中,供前端的報(bào)表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢

          • 分析服務(wù)用來提供明細(xì)的事實(shí)數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)的實(shí)時(shí)計(jì)算能力,允許操作人員自主靈活的進(jìn)行各種維度的交叉組合查詢。分析服務(wù)的能力類似于傳統(tǒng)cube提供的內(nèi)容,但是在大數(shù)據(jù)平臺(tái)下不需要預(yù)先建好cube,更靈活、更節(jié)省成本

          • 標(biāo)簽服務(wù),大數(shù)據(jù)的應(yīng)用場景下,經(jīng)常會(huì)對(duì)主體進(jìn)行特征刻畫,比如客戶的消費(fèi)能力、興趣習(xí)慣、物理特征等等,這些數(shù)據(jù)通過打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢。


          架構(gòu)設(shè)計(jì)中一些實(shí)用的點(diǎn)




          在架構(gòu)設(shè)計(jì)中有一些實(shí)用的點(diǎn),這里給大家分享一下:

          第一,通過巧用虛擬節(jié)點(diǎn)實(shí)現(xiàn)多系統(tǒng)數(shù)據(jù)源同步,實(shí)現(xiàn)跨系統(tǒng)間的數(shù)據(jù)傳輸,實(shí)現(xiàn)多應(yīng)用間數(shù)據(jù)交互。通過巧用虛擬節(jié)點(diǎn)減少運(yùn)維人員在實(shí)際出現(xiàn)問題時(shí)的運(yùn)維成本。

          第二,采用強(qiáng)制分區(qū),在所有的表都上都加上時(shí)間分區(qū)。通過分區(qū),保證每個(gè)任務(wù)都能夠獨(dú)立重跑,而不產(chǎn)生數(shù)據(jù)質(zhì)量問題,降低了數(shù)據(jù)修復(fù)成本;此外通過分區(qū)裁剪,還可以降低計(jì)算成本。


          第三,應(yīng)用計(jì)算框架完成日志結(jié)構(gòu)化、同類數(shù)據(jù)計(jì)算過程等操作,減輕了開發(fā)人員的負(fù)擔(dān),同時(shí)更容易維護(hù)。

          第四,優(yōu)化關(guān)鍵路徑。優(yōu)化關(guān)鍵路徑中耗時(shí)最長的任務(wù)是最有效的保障數(shù)據(jù)產(chǎn)出時(shí)間的手段。

          數(shù)據(jù)治理


          數(shù)據(jù)治理不是獨(dú)立于系統(tǒng)之外的保障,它應(yīng)該貫穿在數(shù)倉架構(gòu)內(nèi)部和數(shù)據(jù)處理的流程之中。


          數(shù)據(jù)質(zhì)量




          保障數(shù)據(jù)質(zhì)量,可以從事前、事中、事后入手。事前,我們可以通過制定每份數(shù)據(jù)的數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則,越重要的數(shù)據(jù)對(duì)應(yīng)的監(jiān)控規(guī)則應(yīng)該越多;事中,通過監(jiān)控和影響數(shù)據(jù)生產(chǎn)過程,對(duì)不符合質(zhì)量要求的數(shù)據(jù)進(jìn)行干預(yù),使其不影響下流數(shù)據(jù)的質(zhì)量;事后,通過對(duì)數(shù)據(jù)質(zhì)量情況進(jìn)行分析和打分,將一些不足和改進(jìn)反饋數(shù)據(jù)監(jiān)控體系,推動(dòng)整體的數(shù)據(jù)質(zhì)量提升。


          數(shù)據(jù)生命周期管理




          出于成本等因素的考慮,在大數(shù)據(jù)平臺(tái)上我們依然需要對(duì)數(shù)據(jù)生命周期進(jìn)行管理。根據(jù)使用頻率將數(shù)據(jù)分為冰、冷、溫、熱四類。一個(gè)合理的數(shù)據(jù)生命周期管理要保證溫?zé)釘?shù)據(jù)占整個(gè)數(shù)據(jù)體系大部分;同時(shí)為了保障數(shù)據(jù)資產(chǎn)的完整性,對(duì)于重要的基礎(chǔ)數(shù)據(jù)會(huì)長久保留。

          對(duì)于數(shù)據(jù)中間計(jì)算過程數(shù)據(jù),在保障滿足絕大部分應(yīng)用訪問歷史數(shù)據(jù)需要的前提下,縮短數(shù)據(jù)保留周期,有助于降低存儲(chǔ)成本;最后一點(diǎn)值得注意的是,冷備已經(jīng)成為歷史,在大數(shù)據(jù)平臺(tái)下不需要單獨(dú)的冷備設(shè)備。

          作者:李金波
          原文地址:https://yq.aliyun.com/articles/57901
          瀏覽 31
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级做a视频 | 日本反a大片 | 999精品视频在线观看 | 99在线观看免费视频 | 九哥操逼视频 |