<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)倉相關(guān)面試題

          共 3967字,需瀏覽 8分鐘

           ·

          2021-03-26 09:42

          ?

          ?數(shù)倉構(gòu)建

          1. 前期業(yè)務(wù)調(diào)研,如需求調(diào)研、數(shù)據(jù)調(diào)研、技術(shù)調(diào)研
          2. 提煉業(yè)務(wù)模型、總線矩陣、劃分主題域
          3. 定制規(guī)范,如命名規(guī)范、開發(fā)規(guī)范、流程規(guī)范
          4. 數(shù)倉架構(gòu)分層
          以阿里巴巴OneData建設(shè)為例:一般分為操作數(shù)據(jù)層(ODS:Operational Data Store)、公共維度模型層(CDM)和應(yīng)用數(shù)據(jù)層(ADS)。其中公共維度模型層包括明細(xì)數(shù)據(jù)層(DWD和匯總數(shù)據(jù)層(DWS)。
          公共維度模型層(CDM):存放明細(xì)事實(shí)數(shù)據(jù)、維表數(shù)據(jù)及公共指標(biāo)匯總數(shù)據(jù),其中明細(xì)事實(shí)數(shù)據(jù)、維表數(shù)據(jù)一般根據(jù)ODS層數(shù)據(jù)加工生成:公共指標(biāo)匯總數(shù)據(jù)一般根據(jù)維表數(shù)據(jù)和明細(xì)事實(shí)數(shù)據(jù)加工生成。
          CDM層又細(xì)分為DWD層和DWS層,分別是明細(xì)數(shù)據(jù)層和匯總數(shù)據(jù)層,采用維度模型方法作為理論基礎(chǔ),更多地采用一些維度退化手法,將維度退化至事實(shí)表中,減少事實(shí)表和維表的關(guān)聯(lián),提高明細(xì)數(shù)據(jù)表的易用性:同時(shí)在匯總數(shù)據(jù)層,加強(qiáng)指標(biāo)的維度退化,采取更多的寬表化手段構(gòu)建公共指標(biāo)數(shù)據(jù)層,提升公共指標(biāo)的復(fù)用性,減少重復(fù)加工。
          組合相關(guān)和相似數(shù)據(jù):采用明細(xì)寬表,復(fù)用關(guān)聯(lián)計(jì)算,減少數(shù)據(jù)掃描。
          公共指標(biāo)統(tǒng)一加工:基于OneData體系構(gòu)建命名規(guī)范、口徑一致和算法統(tǒng)一的統(tǒng)計(jì)指標(biāo),為上層數(shù)據(jù)產(chǎn)品、應(yīng)用和服務(wù)提供公共指標(biāo);建立邏輯匯總寬表。
          建立一致性維度:建立一致的數(shù)據(jù)分析維表,降低數(shù)據(jù)計(jì)算口徑、算法不統(tǒng)一的風(fēng)險(xiǎn)。
          應(yīng)用數(shù)據(jù)層(ADS):存放數(shù)據(jù)產(chǎn)品個(gè)性化的統(tǒng)計(jì)指標(biāo)數(shù)據(jù),根據(jù)CDM層與ODS層加工生成。
          5)選擇合適的數(shù)據(jù)模型,不同的行業(yè)所選取的模型不盡相同,合適的模型,更利于在數(shù)據(jù)存儲(chǔ),計(jì)算,開發(fā),安全,以及數(shù)據(jù)查詢的效率,更能體現(xiàn)數(shù)倉的價(jià)值。
          綜上所述:數(shù)倉建設(shè)這個(gè)問題的范圍過于大,它包含了一個(gè)0-1的過程,此處只做大方面的回答,具體的細(xì)節(jié)問題還需另外討論。

          關(guān)于數(shù)倉構(gòu)建,推薦閱讀:《數(shù)據(jù)倉庫架構(gòu)和建設(shè)方法論》《企業(yè)大數(shù)據(jù)平臺(tái)倉庫架構(gòu)建設(shè)思路》《詳解數(shù)據(jù)倉庫的實(shí)施步驟》


          傳統(tǒng)數(shù)倉和大數(shù)據(jù)數(shù)倉的異同?有哪些大的變化?

          區(qū)別主要是數(shù)倉數(shù)據(jù)存儲(chǔ)的地方不同,傳統(tǒng)數(shù)倉數(shù)據(jù)存儲(chǔ)在Mysql/Oracle等關(guān)系型數(shù)據(jù)庫上,大數(shù)據(jù)數(shù)倉存儲(chǔ)在Hadoop平臺(tái)的Hive中(實(shí)際上是HDFS中),當(dāng)然也有其他的數(shù)倉產(chǎn)品比如TD、Greenplum等。
          我接觸過的傳統(tǒng)數(shù)倉技術(shù)架構(gòu)是使用Kettle做ETL工具,數(shù)據(jù)保存在Mysql中,使用MSTR+Java開發(fā)的數(shù)據(jù)平臺(tái)做可視化,隨著數(shù)據(jù)量逐漸增大,事實(shí)表?xiàng)l數(shù)達(dá)到千萬級(jí),Kettle逐漸變得不穩(wěn)定,單表做拉鏈的任務(wù)的執(zhí)行時(shí)間也指數(shù)級(jí)增加,從1/2h到了6/7h。
          公司考慮使用Hadoop平臺(tái)的Hive做數(shù)據(jù)倉庫,報(bào)表層數(shù)據(jù)保存在Mysql中,使用Tableau做報(bào)表系統(tǒng),這樣不用擔(dān)心存儲(chǔ)問題、計(jì)算速度也大大加快了。
          在此基礎(chǔ)上,公司開放了Hue給各個(gè)部門使用,這樣簡(jiǎn)單的提數(shù)工作可以由運(yùn)營自己來操作。
          使用Presto可以做Mysql、Hive的跨庫查詢,使用時(shí)要注意Presto的數(shù)據(jù)類型非常嚴(yán)格。

          數(shù)倉最重要的是什么?

          數(shù)據(jù)的準(zhǔn)確性,記得在一個(gè)統(tǒng)計(jì)網(wǎng)站上看過,好多數(shù)倉因?yàn)閿?shù)據(jù)不準(zhǔn)確被終止。數(shù)據(jù)的真正價(jià)值在于數(shù)據(jù)驅(qū)動(dòng)決策,通過數(shù)據(jù)指導(dǎo)運(yùn)營,在一個(gè)不準(zhǔn)確的數(shù)據(jù)驅(qū)動(dòng)下,結(jié)果可想而知。


          如何保證數(shù)據(jù)的準(zhǔn)確性?

          元數(shù)據(jù)的建設(shè)與管理是其中重要的一個(gè)環(huán)節(jié)。元數(shù)據(jù)建設(shè)的目標(biāo)是打通數(shù)據(jù)從接入到加工,再到數(shù)據(jù)消費(fèi)的整個(gè)鏈路,規(guī)范元數(shù)據(jù)體系與模型,提供統(tǒng)一的元數(shù)據(jù)服務(wù)出口,保障元數(shù)據(jù)產(chǎn)出的穩(wěn)定性和質(zhì)量。首先梳理清楚元倉底層數(shù)據(jù),對(duì)元數(shù)據(jù)做分類,如計(jì)算元數(shù)據(jù)、存儲(chǔ)元數(shù)據(jù)、質(zhì)量元數(shù)據(jù)等,減少數(shù)據(jù)重復(fù)建設(shè),保障數(shù)據(jù)的唯一性。
          另外,要豐富表和字段使用說明,方便使用和理解。根據(jù)元倉底層數(shù)據(jù)構(gòu)建元倉中間層,建設(shè)元數(shù)據(jù)基礎(chǔ)寬表,也就是元數(shù)據(jù)中間層,打通從數(shù)據(jù)產(chǎn)生到消費(fèi)整個(gè)鏈路。
          當(dāng)然,也可在粒度、規(guī)范等方面展開,見仁見智。

          如何做數(shù)據(jù)治理?數(shù)據(jù)資產(chǎn)管理呢?

          在明確數(shù)據(jù)治理是數(shù)據(jù)管理的一部分之后,下一個(gè)問題就是定義數(shù)據(jù)管理。治理相對(duì)容易界定,它是用來明確相關(guān)角色、工作責(zé)任和工作流程的,確保數(shù)據(jù)資產(chǎn)能長期有序地、可持續(xù)地得到管理。
          而數(shù)據(jù)管理則是一個(gè)更為廣泛的定義,它與任何時(shí)間采集和應(yīng)用數(shù)據(jù)的可重復(fù)流程的方方面面都緊密相關(guān)。
          其實(shí)在數(shù)倉的整個(gè)鏈路中數(shù)據(jù)治理的理念是滲入其中的,在ETL過程中開發(fā)人員會(huì)對(duì)數(shù)據(jù)清洗這其實(shí)就是治理的一部分,再加上后期數(shù)據(jù)資產(chǎn)的管理和落定都有數(shù)據(jù)治理的滲入。
          關(guān)于數(shù)據(jù)治理,推薦閱讀:《面向企業(yè)數(shù)據(jù)中臺(tái)的數(shù)據(jù)治理七把利劍》《數(shù)據(jù)資產(chǎn),贊之治理》

          如何控制數(shù)據(jù)質(zhì)量?

          1. 數(shù)據(jù)質(zhì)量保證原則:完整性,準(zhǔn)確性,數(shù)據(jù)質(zhì)量,及時(shí)性,一致性
          2. 數(shù)據(jù)質(zhì)量方法:數(shù)據(jù)資產(chǎn)等級(jí)的劃定
          3. 數(shù)據(jù)加工過程卡點(diǎn)校驗(yàn)
          4. 風(fēng)險(xiǎn)點(diǎn)監(jiān)控:針對(duì)在線或者離線數(shù)據(jù)的監(jiān)控
          5. 質(zhì)量衡量:故障等級(jí)的劃定以及數(shù)據(jù)質(zhì)量的事件的記錄
          關(guān)于數(shù)據(jù)質(zhì)量,推薦閱讀:《當(dāng)我們聊數(shù)據(jù)質(zhì)量的時(shí)候,我們?cè)诹男┦裁矗俊?/a>

          元數(shù)據(jù)的理解?元數(shù)據(jù)管理系統(tǒng)?

          元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL任務(wù)的運(yùn)行狀態(tài)。
          元數(shù)據(jù)有重要的應(yīng)用價(jià)值,是數(shù)據(jù)管理、數(shù)據(jù)內(nèi)容、數(shù)據(jù)應(yīng)用的基礎(chǔ),在數(shù)據(jù)管理方面為集團(tuán)數(shù)據(jù)提供在計(jì)算、存儲(chǔ)、成本、質(zhì)量、安全、模型等治理領(lǐng)域上的數(shù)據(jù)支持。
          元數(shù)據(jù)管理系統(tǒng):首先梳理清楚元倉底層數(shù)據(jù),對(duì)元數(shù)據(jù)做分類,如計(jì)算元數(shù)據(jù)、存儲(chǔ)元數(shù)據(jù)、質(zhì)量元數(shù)據(jù)等,減少數(shù)據(jù)重復(fù)建設(shè),保障數(shù)據(jù)的唯一性。
          另外,要豐富表和字段使用說明,方便使用和理解。根據(jù)元倉底層數(shù)據(jù)構(gòu)建元倉中間層,建設(shè)元數(shù)據(jù)基礎(chǔ)寬表,也就是元數(shù)據(jù)中間層,打通從數(shù)據(jù)產(chǎn)生到消費(fèi)整個(gè)鏈路。
          關(guān)于元數(shù)據(jù),推薦閱讀:《基于Hive進(jìn)行數(shù)倉建設(shè)的資源元數(shù)據(jù)信息統(tǒng)計(jì)》、《餓了么元數(shù)據(jù)管理實(shí)踐之路》《有贊數(shù)據(jù)倉庫元數(shù)據(jù)系統(tǒng)實(shí)踐》《元數(shù)據(jù):數(shù)據(jù)治理的基石》

          數(shù)倉如何分層的?及每一層的作用?

          結(jié)合Inmon和Kimball的集線器式和總線式的數(shù)據(jù)倉庫的優(yōu)點(diǎn),分層可為ODS【-MID】-DW-DM-OLAP/OLAM/app(不同企業(yè)略有差異)。
          ODS層是將OLTP數(shù)據(jù)通過ETL同步到數(shù)據(jù)倉庫來作為數(shù)據(jù)倉庫最基礎(chǔ)的數(shù)據(jù)來源。在這個(gè)過程中,數(shù)據(jù)經(jīng)過了一定的清洗,比如字段的統(tǒng)一,臟數(shù)據(jù)的去除等,但是數(shù)據(jù)的粒度是不會(huì)變化的。ODS層的數(shù)據(jù)可以只保留一定的時(shí)間。
          MID中間層是采用Inmon集線器架構(gòu)的方式,使用范式建模(貼源)的方法。這一層主要是做規(guī)范化的事情,比如應(yīng)用庫表非規(guī)范化,字段格式復(fù)雜(json格式)需做一些處理。這一層不是必須有的。也不會(huì)對(duì)外開放使用。范式建模保證了數(shù)據(jù)一致性、唯一性、正確性。
          DW-DM層是采用Kimball的總線式的數(shù)據(jù)倉庫架構(gòu),針對(duì)部門(比如財(cái)務(wù)部門)或者某一主題(比如商戶、用戶),通過維度建模(推薦星型模型),構(gòu)建一致性維度,原子粒度的數(shù)據(jù)是DW層,按照實(shí)體或者主題經(jīng)過一定的匯總,建設(shè)數(shù)據(jù)集市模型。數(shù)據(jù)集市可以為OLAP提供服務(wù)。
          注:OLAM是On-line Analytical Mining,即聯(lián)機(jī)分析挖掘又稱多維數(shù)據(jù)挖掘,由加拿大Simon Fraser大學(xué)Jiawei Han教授等數(shù)據(jù)立方體的基礎(chǔ)上提出的一種新的數(shù)據(jù)挖掘技術(shù)。OLAM技術(shù)將數(shù)據(jù)挖掘技術(shù)(DM)和聯(lián)機(jī)分析處理技術(shù)(OLAP)集成在一起,在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)。

          為什么要分層的思考?

          空間換時(shí)間:通過建設(shè)多層次的數(shù)據(jù)模型供用戶使用,避免用戶直接使用操作型數(shù)據(jù),可以更高效的訪問數(shù)據(jù)。
          復(fù)雜問題簡(jiǎn)單化:將一個(gè)復(fù)雜的任務(wù)分解成多個(gè)步驟來完成,每一層只處理單一的步驟,比較簡(jiǎn)單和容易理解。而且便于維護(hù)數(shù)據(jù)的準(zhǔn)確性,當(dāng)數(shù)據(jù)出現(xiàn)問題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問題的步驟開始修復(fù)。
          便于處理業(yè)務(wù)的變化:隨著業(yè)務(wù)的變化,只需要調(diào)整底層的數(shù)據(jù),對(duì)應(yīng)用層對(duì)業(yè)務(wù)的調(diào)整零感知。

          分層的價(jià)值

          【易維護(hù)】

          面向主題的特性決定了數(shù)據(jù)倉庫擁有業(yè)務(wù)數(shù)據(jù)庫所無法擁有的高效的數(shù)據(jù)組織形式,更加完整的數(shù)據(jù)體系,清晰的數(shù)據(jù)分類和分層機(jī)制。因?yàn)樗袛?shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前都經(jīng)過清洗和過濾,使原始數(shù)據(jù)不再雜亂無章,基于優(yōu)化查詢的組織形式,有效提高數(shù)據(jù)獲取、統(tǒng)計(jì)和分析的效率。

          【高性能】

          數(shù)據(jù)倉庫的構(gòu)建將大大縮短獲取信息的時(shí)間,數(shù)據(jù)倉庫作為數(shù)據(jù)的集合,所有的信息都可以從數(shù)據(jù)倉庫直接獲取,數(shù)據(jù)倉庫的最大優(yōu)勢(shì)在于一旦底層從各類數(shù)據(jù)源到數(shù)據(jù)倉庫的ETL流程構(gòu)建成型,那么每天就會(huì)有來自各方面的信息通過自動(dòng)任務(wù)調(diào)度的形式流入數(shù)據(jù)倉庫,從而使一切基于這些底層信息的數(shù)據(jù)獲取的效率達(dá)到迅速提升。
          從應(yīng)用來看,使用數(shù)據(jù)倉庫可以大大提高數(shù)據(jù)的查詢效率,尤其對(duì)于海量數(shù)據(jù)的關(guān)聯(lián)查詢和復(fù)雜查詢,所以數(shù)據(jù)倉庫有利于實(shí)現(xiàn)復(fù)雜的統(tǒng)計(jì)需求,提高數(shù)據(jù)統(tǒng)計(jì)的效率。

          【簡(jiǎn)單化】

          數(shù)據(jù)倉庫是所有數(shù)據(jù)的集合,包括日志信息、數(shù)據(jù)庫數(shù)據(jù)、文本數(shù)據(jù)、外部數(shù)據(jù)等都集成在數(shù)據(jù)倉庫中,對(duì)于應(yīng)用來說,實(shí)現(xiàn)各種不同數(shù)據(jù)的關(guān)聯(lián)并使多維分析更加方便,為從多角度多層次地?cái)?shù)據(jù)分析和決策制定提供的可能。

          【歷史性】

          記錄歷史是數(shù)據(jù)倉庫的特性之一,數(shù)據(jù)倉庫能夠還原歷史時(shí)間點(diǎn)上的產(chǎn)品狀態(tài)、用戶狀態(tài)、用戶行為等,以便于能更好的回溯歷史,分析歷史,跟蹤用戶的歷史行為,更好地比較歷史和總結(jié)歷史,同時(shí)根據(jù)歷史預(yù)測(cè)未來。

          猜你喜歡
          Flink實(shí)時(shí)計(jì)算topN熱榜
          數(shù)倉建模分層理論
          Hive中的集合數(shù)據(jù)類型
          Hive必會(huì)SQL語法explode 和 lateral view
          Hive表的基本操作(必會(huì))

          ?

          ?

          瀏覽 78
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  18禁欧美日韩 | 国产一区二三区免费A片惊变 | 欧美午夜操逼大片 | 国产豆花视频在线播放 | 日韩无码123区 |