<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          企業(yè)大數(shù)據(jù)平臺數(shù)據(jù)倉庫架構(gòu)建設(shè)思路

          共 3830字,需瀏覽 8分鐘

           ·

          2021-08-13 22:50

          導(dǎo)讀:隨著互聯(lián)網(wǎng)規(guī)模不斷的擴(kuò)大,數(shù)據(jù)也在爆炸式地增長,各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生,越來越多的企業(yè)開始在大數(shù)據(jù)平臺下進(jìn)行數(shù)據(jù)處理。本文主要從總體思路、模型設(shè)計(jì)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)治理四個(gè)方面介紹了如何利用大數(shù)據(jù)平臺的特性,構(gòu)建更貼合大數(shù)據(jù)應(yīng)用的數(shù)據(jù)倉庫。


          總體思路

          隨著互聯(lián)網(wǎng)規(guī)模不斷的擴(kuò)大,數(shù)據(jù)也在爆炸式地增長,各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)不斷地產(chǎn)生。新環(huán)境下的數(shù)據(jù)應(yīng)用呈現(xiàn)業(yè)務(wù)變化快、數(shù)據(jù)來源多、系統(tǒng)耦合多、應(yīng)用深度深等特征。


          那么基于這些特征,該如何構(gòu)建數(shù)據(jù)倉庫呢?筆者認(rèn)為應(yīng)該從穩(wěn)定、可信、豐富、透明四個(gè)關(guān)鍵詞入手。


          其中,穩(wěn)定要求數(shù)據(jù)的產(chǎn)出穩(wěn)定、有保障;可信意味著數(shù)據(jù)的質(zhì)量要足夠高;豐富是指數(shù)據(jù)涵蓋的業(yè)務(wù)面要足夠豐富;透明要求數(shù)據(jù)構(gòu)成流程體系是透明,讓用戶放心使用。

          我們之所以選擇基于大數(shù)據(jù)平臺構(gòu)建數(shù)據(jù)倉庫,是由大數(shù)據(jù)平臺豐富的特征決定的:


          • 強(qiáng)大的計(jì)算和存儲能力,使得更扁平化的數(shù)據(jù)流程設(shè)計(jì)成為可能,簡化計(jì)算過程

          • 多樣的編程接口和框架,豐富了數(shù)據(jù)加工的手段

          • 豐富的數(shù)據(jù)采集通道,能夠?qū)崿F(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的采集

          • 各種安全和管理措施,保障了平臺的可用性

          倉庫架構(gòu)設(shè)計(jì)原則主要包括以下四點(diǎn):


          第一自下而上結(jié)合自上而下的方式,保障數(shù)據(jù)搜集的全面性;
          第二高容錯(cuò)性,隨著系統(tǒng)耦合度的增加,任何一個(gè)系統(tǒng)出現(xiàn)問題都會對數(shù)倉服務(wù)產(chǎn)生影響,因此在數(shù)倉構(gòu)建時(shí),高容錯(cuò)性是必不可少的因素;
          第三數(shù)據(jù)質(zhì)量監(jiān)控需要貫穿整個(gè)數(shù)據(jù)流程,毫不夸張地說,數(shù)據(jù)質(zhì)量監(jiān)控消耗的資源可以等同于數(shù)據(jù)倉庫構(gòu)建的資源;

          第四無需擔(dān)心數(shù)據(jù)冗余,充分利用存儲換易用。


          模型設(shè)計(jì)

          構(gòu)建數(shù)倉的首要步驟就是進(jìn)行模型設(shè)計(jì)。


          維度建模或?qū)嶓w關(guān)系建模



          常見的模型設(shè)計(jì)思路包括維度建模和實(shí)體關(guān)系建模。維度建模實(shí)施簡單,便于實(shí)時(shí)數(shù)據(jù)分析,適用于業(yè)務(wù)分析報(bào)表和BI;實(shí)體關(guān)系建模結(jié)構(gòu)較復(fù)雜,但它便于主體數(shù)據(jù)打通,適合復(fù)雜數(shù)據(jù)內(nèi)容的深度挖掘。


          每個(gè)企業(yè)在構(gòu)建自己數(shù)倉時(shí),應(yīng)該根據(jù)業(yè)務(wù)形態(tài)和需求場景選擇合適的建模方式。對于應(yīng)用復(fù)雜性企業(yè),可以采用多種建模結(jié)合的方式,例如在基礎(chǔ)層采用維度建模的方式,讓維度更加清晰;中間層采用實(shí)體關(guān)系建模方式,使得中間層更容易被上層應(yīng)用使用。


          星型模型和雪花模型



          除了建模方式之外,在星型模型和雪花模型的選擇上也有可能讓使用者左右為難。事實(shí)上,兩種模型是并存的,星型是雪花模型的一種。理論上真實(shí)數(shù)據(jù)的模型都是雪花模型;實(shí)際數(shù)據(jù)倉庫中兩種模型是并存的。



          由于星型模型相對結(jié)構(gòu)簡單,我們可以在數(shù)據(jù)中間層利用數(shù)據(jù)冗余將雪花模型轉(zhuǎn)換成星型模型,從而有利于數(shù)據(jù)應(yīng)用和減少計(jì)算資源消耗。


          數(shù)據(jù)分層



          在確定建模思路和模型類型之后,下一步的工作是數(shù)據(jù)分層。數(shù)據(jù)分層可以使得數(shù)據(jù)構(gòu)建體系更加清晰,便于數(shù)據(jù)使用者快速對數(shù)據(jù)進(jìn)行定位;同時(shí)數(shù)據(jù)分層也可以簡化數(shù)據(jù)加工處理流程,降低計(jì)算復(fù)雜度。

          我們常用的數(shù)據(jù)倉庫的數(shù)據(jù)分層通常分為集市層、中間層、基礎(chǔ)數(shù)據(jù)層上下三層結(jié)構(gòu)。由傳統(tǒng)的多層結(jié)構(gòu)減少到上下三層結(jié)構(gòu)的目的是為了壓縮整體數(shù)據(jù)處理流程的長度,同時(shí)扁平化的數(shù)據(jù)處理流程有助于數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)運(yùn)維。


          在上下三層的結(jié)構(gòu)的右側(cè),我們增加了流式數(shù)據(jù),將其添加成數(shù)據(jù)體系的一部分。這是因?yàn)楫?dāng)前的數(shù)據(jù)應(yīng)用方向會越來越關(guān)注數(shù)據(jù)的時(shí)效性,越實(shí)時(shí)的數(shù)據(jù)價(jià)值度越高。

          但是,由于流式數(shù)據(jù)集的采集、加工和管理的成本較高,一般都會按照需求驅(qū)動的方式建設(shè);此外,考慮到成本因素,流式數(shù)據(jù)體系的結(jié)構(gòu)更加扁平化,通常不會設(shè)計(jì)中間層。

          下面來具體看下每一層的作用。


          數(shù)據(jù)基礎(chǔ)層



          數(shù)據(jù)基礎(chǔ)層主要完成的工作包括以下幾點(diǎn):

          • 數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個(gè)平臺上

          • 數(shù)據(jù)清洗,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計(jì)算

          • 數(shù)據(jù)歸類,建立數(shù)據(jù)目錄,在基礎(chǔ)層一般按照來源系統(tǒng)和業(yè)務(wù)域進(jìn)行分類

          • 數(shù)據(jù)結(jié)構(gòu)化,對于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進(jìn)行結(jié)構(gòu)化

          • 數(shù)據(jù)規(guī)范化,包括規(guī)范維度標(biāo)識、統(tǒng)一計(jì)量單位等規(guī)范化操作


          數(shù)據(jù)中間層



          數(shù)據(jù)中間層最為重要的目標(biāo)就是把同一實(shí)體不同來源的數(shù)據(jù)打通起來,這是因?yàn)楫?dāng)前業(yè)務(wù)形態(tài)下,同一實(shí)體的數(shù)據(jù)可能分散在不同的系統(tǒng)和來源,且這些數(shù)據(jù)對同一實(shí)體的標(biāo)識符可能不同。

          此外,數(shù)據(jù)中間層還可以從行為中抽象關(guān)系。從行為中抽象出來的基礎(chǔ)關(guān)系,會是未來上層應(yīng)用一個(gè)很重要的數(shù)據(jù)依賴。例如抽象出的興趣、偏好、習(xí)慣等關(guān)系數(shù)據(jù)是推薦、個(gè)性化的基礎(chǔ)生產(chǎn)資料。


          在中間層,為了保證主題的完整性或提高數(shù)據(jù)的易用性,經(jīng)常會進(jìn)行適當(dāng)?shù)臄?shù)據(jù)冗余。比如某一實(shí)事數(shù)據(jù)和兩個(gè)主題相關(guān)但自身又沒有成為獨(dú)立主題,則會放在兩個(gè)主題庫中;為了提高單數(shù)據(jù)表的復(fù)用性和減少計(jì)算關(guān)聯(lián),通常會在事實(shí)表中冗余部分維度信息。


          數(shù)據(jù)集市層



          數(shù)據(jù)集市層是上下三層架構(gòu)的最上層,通常是由需求場景驅(qū)動建設(shè)的,并且各集市間垂直構(gòu)造。


          在數(shù)據(jù)集市層,我們可以深度挖掘數(shù)據(jù)價(jià)值。值得注意的是,數(shù)據(jù)集市層需要能夠快速試錯(cuò)。(了解更多數(shù)據(jù)倉庫建設(shè)內(nèi)容,歡迎點(diǎn)擊閱讀:6000字詳解數(shù)據(jù)倉庫建設(shè)方法

          數(shù)據(jù)架構(gòu)

          數(shù)據(jù)架構(gòu)包括數(shù)據(jù)整合、數(shù)據(jù)體系、數(shù)據(jù)服務(wù)三部分:


          其中,數(shù)據(jù)整合又可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三類。


          數(shù)據(jù)整合



          結(jié)構(gòu)化數(shù)據(jù)采集又可細(xì)分為全量采集、增量采集、實(shí)時(shí)采集三類。三種采集方式的各自特點(diǎn)和適應(yīng)場合如下圖所示,其中全量采集的方式最為簡單;實(shí)時(shí)采集的采集質(zhì)量最難控制。




          在傳統(tǒng)的架構(gòu)中,日志的結(jié)構(gòu)化處理是放在數(shù)倉體系之外的。在大數(shù)據(jù)平臺倉庫架構(gòu)中,日志在采集到平臺之前不做結(jié)構(gòu)化處理;在大數(shù)據(jù)平臺上按行符分割每條日志,整條日志存儲在一個(gè)數(shù)據(jù)表字段;后續(xù),通過UDF或MR計(jì)算框架實(shí)現(xiàn)日志結(jié)構(gòu)化。



          在筆者看來,日志結(jié)構(gòu)越規(guī)范,解析成本越低。在日志結(jié)構(gòu)化的過程中,并不一定需要完全平鋪數(shù)據(jù)內(nèi)容,只需結(jié)構(gòu)化出重要常用字段;同時(shí),為了保障擴(kuò)展性,可以利用數(shù)據(jù)冗余保存原始符合字段(如useragent字段)。

          非結(jié)構(gòu)化的數(shù)據(jù)需要結(jié)構(gòu)化才能使用。非結(jié)構(gòu)化數(shù)據(jù)特征提取包括語音轉(zhuǎn)文本、圖片識別、自然語言處理、圖片達(dá)標(biāo)、視頻識別等方式。



          盡管目前數(shù)倉架構(gòu)體系中并不包含非結(jié)構(gòu)化數(shù)據(jù)特征提取操作,但在未來,這將成為可能。

          數(shù)據(jù)服務(wù)化



          數(shù)據(jù)服務(wù)化包括統(tǒng)計(jì)服務(wù)、分析服務(wù)和標(biāo)簽服務(wù):


          • 統(tǒng)計(jì)服務(wù)主要是偏傳統(tǒng)的報(bào)表服務(wù),利用大數(shù)據(jù)平臺將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫中,供前端的報(bào)表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢。

          • 分析服務(wù)用來提供明細(xì)的事實(shí)數(shù)據(jù),利用大數(shù)據(jù)平臺的實(shí)時(shí)計(jì)算能力,允許操作人員自主靈活的進(jìn)行各種維度的交叉組合查詢。分析服務(wù)的能力類似于傳統(tǒng)cube提供的內(nèi)容,但是在大數(shù)據(jù)平臺下不需要預(yù)先建好cube,更靈活、更節(jié)省成本。

          • 標(biāo)簽服務(wù),大數(shù)據(jù)的應(yīng)用場景下,經(jīng)常會對主體進(jìn)行特征刻畫,比如客戶的消費(fèi)能力、興趣習(xí)慣、物理特征等等,這些數(shù)據(jù)通過打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢。(了解更多數(shù)據(jù)服務(wù)化的內(nèi)容,歡迎點(diǎn)擊閱讀:快手大數(shù)據(jù)平臺服務(wù)化實(shí)踐


          架構(gòu)設(shè)計(jì)中一些實(shí)用的點(diǎn)



          在架構(gòu)設(shè)計(jì)中有一些實(shí)用的點(diǎn),這里給大家分享一下:



          第一,通過巧用虛擬節(jié)點(diǎn)實(shí)現(xiàn)多系統(tǒng)數(shù)據(jù)源同步,實(shí)現(xiàn)跨系統(tǒng)間的數(shù)據(jù)傳輸,實(shí)現(xiàn)多應(yīng)用間數(shù)據(jù)交互。通過巧用虛擬節(jié)點(diǎn)減少運(yùn)維人員在實(shí)際出現(xiàn)問題時(shí)的運(yùn)維成本。

          第二,采用強(qiáng)制分區(qū),在所有的表都上都加上時(shí)間分區(qū)。通過分區(qū),保證每個(gè)任務(wù)都能夠獨(dú)立重跑,而不產(chǎn)生數(shù)據(jù)質(zhì)量問題,降低了數(shù)據(jù)修復(fù)成本;此外通過分區(qū)裁剪,還可以降低計(jì)算成本。


          第三,應(yīng)用計(jì)算框架完成日志結(jié)構(gòu)化、同類數(shù)據(jù)計(jì)算過程等操作,減輕了開發(fā)人員的負(fù)擔(dān),同時(shí)更容易維護(hù)。

          第四,優(yōu)化關(guān)鍵路徑。優(yōu)化關(guān)鍵路徑中耗時(shí)最長的任務(wù)是最有效的保障數(shù)據(jù)產(chǎn)出時(shí)間的手段。(了解更多數(shù)據(jù)倉庫架構(gòu)設(shè)計(jì)方法,歡迎點(diǎn)擊閱讀:萬字長文詳解數(shù)據(jù)倉庫架構(gòu)和建設(shè)方法論

          數(shù)據(jù)治理

          數(shù)據(jù)治理的內(nèi)容主要體現(xiàn)在三個(gè)方面:

          • 保障體系:開展數(shù)據(jù)治理組織建設(shè),并建立配套的流程和標(biāo)準(zhǔn)規(guī)范
          • 內(nèi)容建設(shè):包括數(shù)據(jù)架構(gòu)頂層規(guī)劃設(shè)計(jì)、數(shù)據(jù)模型標(biāo)準(zhǔn)設(shè)計(jì)、數(shù)據(jù)開發(fā)、生產(chǎn)運(yùn)營維護(hù)、數(shù)據(jù)共享服務(wù)
          • 管理體系:數(shù)據(jù)治理和數(shù)據(jù)安全是核心重點(diǎn)


          數(shù)據(jù)治理不是獨(dú)立于系統(tǒng)之外的保障,它應(yīng)該貫穿在數(shù)倉架構(gòu)內(nèi)部和數(shù)據(jù)處理的流程之中。(了解更多數(shù)據(jù)治理的內(nèi)容,歡迎點(diǎn)擊閱讀:詳解數(shù)據(jù)治理九大核心領(lǐng)域,以銀行業(yè)為例



          數(shù)據(jù)質(zhì)量



          保障數(shù)據(jù)質(zhì)量,可以從事前、事中、事后入手:


          事前,我們可以通過制定每份數(shù)據(jù)的數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則,越重要的數(shù)據(jù)對應(yīng)的監(jiān)控規(guī)則應(yīng)該越多。


          事中,通過監(jiān)控和影響數(shù)據(jù)生產(chǎn)過程,對不符合質(zhì)量要求的數(shù)據(jù)進(jìn)行干預(yù),使其不影響下流數(shù)據(jù)的質(zhì)量。


          事后,通過對數(shù)據(jù)質(zhì)量情況進(jìn)行分析和打分,將一些不足和改進(jìn)反饋數(shù)據(jù)監(jiān)控體系,推動整體的數(shù)據(jù)質(zhì)量提升。(了解更多數(shù)據(jù)質(zhì)量的內(nèi)容,歡迎請點(diǎn)擊閱讀:企業(yè)數(shù)據(jù)質(zhì)量管理的核心要素和技術(shù)路線(PPT)



          數(shù)據(jù)生命周期管理



          出于成本等因素的考慮,在大數(shù)據(jù)平臺上依然需要對數(shù)據(jù)生命周期進(jìn)行管理。根據(jù)使用頻率將數(shù)據(jù)分為冰、冷、溫、熱四類。一個(gè)合理的數(shù)據(jù)生命周期管理要保證溫?zé)釘?shù)據(jù)占整個(gè)數(shù)據(jù)體系大部分;同時(shí)為了保障數(shù)據(jù)資產(chǎn)的完整性,對于重要的基礎(chǔ)數(shù)據(jù)會長久保留。


          對于數(shù)據(jù)中間計(jì)算過程數(shù)據(jù),在保障滿足絕大部分應(yīng)用訪問歷史數(shù)據(jù)需要的前提下,縮短數(shù)據(jù)保留周期,有助于降低存儲成本;最后一點(diǎn)值得注意的是,冷備已經(jīng)成為歷史,在大數(shù)據(jù)平臺下不需要單獨(dú)的冷備設(shè)備。
          瀏覽 70
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲不卡在线 | 中文字幕日产乱码中 | 亚洲欧美成人在线视频 | 黄色片子,黄色网 | 日本一区精品 |