<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          那些年被問(wèn)懵逼的數(shù)倉(cāng)面試題(建議收藏)

          共 3403字,需瀏覽 7分鐘

           ·

          2020-12-17 14:05

          ??

          數(shù)倉(cāng)構(gòu)建:

          1). 前期業(yè)務(wù)調(diào)研 需求調(diào)研 數(shù)據(jù)調(diào)研 技術(shù)選型

          2). 提煉業(yè)務(wù)模型,總線矩陣,劃分主題域;

          3). 定制規(guī)范 命名規(guī)范、開(kāi)發(fā)規(guī)范、流程規(guī)范

          4). 數(shù)倉(cāng)架構(gòu)分層:一般分為操作數(shù)據(jù)層(ODS)、公共維度模型層(CDM)和應(yīng)用數(shù)據(jù)層(ADS),其中公共維度模型層包括明細(xì)數(shù)據(jù)層(DWD和匯總數(shù)據(jù)層(DWS)

          公共維度模型層(CDM):存放明細(xì)事實(shí)數(shù)據(jù)、維表數(shù)據(jù)及公共指標(biāo)匯總數(shù)據(jù),其中明細(xì)事實(shí)數(shù)據(jù)、維表數(shù)據(jù)一般根據(jù)ODS層數(shù)據(jù)加工生成:公共指標(biāo)匯總數(shù)據(jù)一般根據(jù)維表數(shù)據(jù)和明細(xì)事實(shí)數(shù)據(jù)加工生成。

          CDM層又細(xì)分為DWD層和DWS層,分別是明細(xì)數(shù)據(jù)層和匯總數(shù)據(jù)層,采用維度模型方法作為理論基礎(chǔ),更多地采用一些維度退化手法,將維度退化至事實(shí)表中,減少事實(shí)表和維表的關(guān)聯(lián),提高明細(xì)數(shù)據(jù)表的易用性:同時(shí)在匯總數(shù)據(jù)層,加強(qiáng)指標(biāo)的維度退化,采取更多的寬表化手段構(gòu)建公共指標(biāo)數(shù)據(jù)層,提升公共指標(biāo)的復(fù)用性,減少重復(fù)加工。

          應(yīng)用數(shù)據(jù)層(ADS):存放數(shù)據(jù)產(chǎn)品個(gè)性化的統(tǒng)計(jì)指標(biāo)數(shù)據(jù),根據(jù)CDM層與ODS層加工生成。

          5).選擇合適的數(shù)據(jù)模型,不同的行業(yè)所選取的模型不盡相同,合適的模型,更利于在數(shù)據(jù)存儲(chǔ),計(jì)算,開(kāi)發(fā),安全,以及數(shù)據(jù)查詢的效率,更能體現(xiàn)數(shù)倉(cāng)的價(jià)值。

          綜上所述:數(shù)倉(cāng)建設(shè)這個(gè)問(wèn)題的范圍過(guò)于大,它包含了一個(gè)0-1的過(guò)程,此處只做大方面的回答,具體的細(xì)節(jié)問(wèn)題還需另外討論。

          傳統(tǒng)數(shù)倉(cāng)和大數(shù)據(jù)數(shù)倉(cāng)的異同?有哪些大的變化?答:其區(qū)別主要是數(shù)倉(cāng)數(shù)據(jù)存儲(chǔ)的地方不同,傳統(tǒng)數(shù)倉(cāng)數(shù)據(jù)存儲(chǔ)在mysql/oracle等關(guān)系型數(shù)據(jù)庫(kù)上,大數(shù)據(jù)數(shù)倉(cāng)存儲(chǔ)在hadoop平臺(tái)的hive中(實(shí)際上是HDFS中),當(dāng)然也有其他的數(shù)倉(cāng)產(chǎn)品比如TD、greenplum等。

          我接觸過(guò)的傳統(tǒng)數(shù)倉(cāng)技術(shù)架構(gòu)是使用kettle做ETL工具,數(shù)據(jù)保存在mysql中,使用MSTR+java開(kāi)發(fā)的數(shù)據(jù)平臺(tái)做可視化,隨著數(shù)據(jù)量逐漸增大,事實(shí)表?xiàng)l數(shù)達(dá)到千萬(wàn)級(jí),kettle逐漸變得不穩(wěn)定,

          單表做拉鏈的任務(wù)的執(zhí)行時(shí)間也指數(shù)級(jí)增加,從1/2h到了6/7h。

          公司考慮使用hadoop平臺(tái)的hive做數(shù)據(jù)倉(cāng)庫(kù),報(bào)表層數(shù)據(jù)保存在mysql中,使用tableau做報(bào)表系統(tǒng),這樣不用擔(dān)心存儲(chǔ)問(wèn)題、計(jì)算速度也大大加快了。

          在此基礎(chǔ)上,公司開(kāi)放了hue給各個(gè)部門(mén)使用,這樣簡(jiǎn)單的提數(shù)工作可以由運(yùn)營(yíng)自己來(lái)操作。

          使用presto可以做mysql、hive的跨庫(kù)查詢,使用時(shí)要注意presto的數(shù)據(jù)類(lèi)型非常嚴(yán)格。

          數(shù)倉(cāng)最重要的是什么?

          數(shù)據(jù)的準(zhǔn)確性,記得在一個(gè)統(tǒng)計(jì)網(wǎng)站上看過(guò),好多數(shù)倉(cāng)因?yàn)閿?shù)據(jù)不準(zhǔn)確被終止。數(shù)據(jù)的真正價(jià)值在于數(shù)據(jù)驅(qū)動(dòng)決策,通過(guò)數(shù)據(jù)指導(dǎo)運(yùn)營(yíng),在一個(gè)不準(zhǔn)確的數(shù)據(jù)驅(qū)動(dòng)下,結(jié)果可想而知。

          如何保證數(shù)據(jù)的準(zhǔn)確性?

          元數(shù)據(jù)的建設(shè)與管理是其中重要的一個(gè)環(huán)節(jié)。元數(shù)據(jù)建設(shè)的目標(biāo)是打通數(shù)據(jù)接入到加工 ,再到數(shù)據(jù)消費(fèi)整個(gè)鏈路,規(guī)范元數(shù)據(jù)體系與模型,提供統(tǒng)一的元數(shù)據(jù)服務(wù)出口,保障元數(shù)據(jù)產(chǎn)出的穩(wěn)定性和質(zhì)量。首先梳理清楚元倉(cāng)底層數(shù)據(jù),對(duì)元數(shù)據(jù)做分類(lèi),如計(jì)算元數(shù)據(jù)、存儲(chǔ)元數(shù)據(jù)、質(zhì)量元數(shù)據(jù)等,減少數(shù)據(jù)重復(fù)建設(shè),保障數(shù)據(jù)的唯一性。

          另外, 要豐富表和字段使用說(shuō)明,方便使用和理解。根據(jù)元倉(cāng)底層數(shù)據(jù)構(gòu)建元倉(cāng)中間層,建設(shè)元數(shù)據(jù)基礎(chǔ)寬表,也就是元數(shù)據(jù)中間層,打通從數(shù)據(jù)產(chǎn)生到消費(fèi)整個(gè)鏈路。

          也可在粒度、規(guī)范等方面展開(kāi),見(jiàn)仁見(jiàn)智。

          如何做數(shù)據(jù)治理?數(shù)據(jù)資產(chǎn)管理呢?

          在明確數(shù)據(jù)治理是數(shù)據(jù)管理的一部分之后,下一個(gè)問(wèn)題就是定義數(shù)據(jù)管理。治理相對(duì)容易界定,它是用來(lái)明確相關(guān)角色、工作責(zé)任和工作流程的,確保數(shù)據(jù)資產(chǎn)能長(zhǎng)期有序地、可持續(xù)地得到管理。

          而數(shù)據(jù)管理則是一個(gè)更為廣泛的定義,它與任何時(shí)間采集和應(yīng)用數(shù)據(jù)的可重復(fù)流程的方方面面都緊密相關(guān)。

          其實(shí)在數(shù)倉(cāng)的整個(gè)鏈路中數(shù)據(jù)治理的理念是滲入其中的,在ETL過(guò)程中開(kāi)發(fā)人員會(huì)對(duì)數(shù)據(jù)清洗這其實(shí)就是治理的一部分,再加上后期數(shù)據(jù)資產(chǎn)的管理和落定都有數(shù)據(jù)治理的滲入。

          如何控制數(shù)據(jù)質(zhì)量?

          1.數(shù)據(jù)質(zhì)量保證原則:完整性,準(zhǔn)確性,數(shù)據(jù)質(zhì)量,及時(shí)性,一致性 2.數(shù)據(jù)質(zhì)量方法:數(shù)據(jù)資產(chǎn)等級(jí)的劃定

          3.數(shù)據(jù)加工過(guò)程卡點(diǎn)校驗(yàn)

          4.風(fēng)險(xiǎn)點(diǎn)監(jiān)控:針對(duì)在線或者離線數(shù)據(jù)的監(jiān)控

          5.質(zhì)量衡量:故障等級(jí)的劃定以及數(shù)據(jù)質(zhì)量的事件的記錄

          元數(shù)據(jù)的理解?元數(shù)據(jù)管理系統(tǒng)?

          元數(shù)據(jù)主要記錄數(shù)據(jù)倉(cāng)庫(kù)中模型的定義、各層級(jí)間的映射關(guān)系、監(jiān) 控?cái)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)狀態(tài)及 ETL 的任務(wù)運(yùn)行狀態(tài)。

          元數(shù)據(jù)有重要的應(yīng)用價(jià)值,是數(shù)據(jù)管理、數(shù)據(jù)內(nèi)容、數(shù)據(jù)應(yīng)用的基礎(chǔ),在數(shù)據(jù)管理方面為集團(tuán)數(shù)據(jù)提供在計(jì)算、存儲(chǔ)、成本、質(zhì)量、安全、模型等治理領(lǐng)域上的數(shù)據(jù)支持。

          元數(shù)據(jù)管理系統(tǒng):?首先梳理清楚元倉(cāng)底層數(shù)據(jù),對(duì)元數(shù)據(jù)做分類(lèi),如計(jì)算元數(shù)據(jù)、存儲(chǔ)元數(shù)據(jù)、質(zhì)量元數(shù)據(jù)等,減少數(shù)據(jù)重復(fù)建設(shè),保障數(shù)據(jù)的唯一性。

          另外, 要豐富表和字段使用說(shuō)明,方便使用和理解。根據(jù)元倉(cāng)底層數(shù)據(jù)構(gòu)建元倉(cāng)中間層,建設(shè)元數(shù)據(jù)基礎(chǔ)寬表,也就是元數(shù)據(jù)中間層,打通從數(shù)據(jù)產(chǎn)生到消費(fèi)整個(gè)鏈路

          數(shù)倉(cāng)如何分層的?及每一層的作用?思考:為什么要這么分層?

          結(jié)合Inmon和Kimball的集線器式和總線式的數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)點(diǎn),分層可為ODS【-MID】-DW-DM-OLAP/OLAM/app(不同企業(yè)略有差異)

          ODS層是將OLTP數(shù)據(jù)通過(guò)ETL同步到數(shù)據(jù)倉(cāng)庫(kù)來(lái)作為數(shù)據(jù)倉(cāng)庫(kù)最基礎(chǔ)的數(shù)據(jù)來(lái)源。在這個(gè)過(guò)程中,數(shù)據(jù)經(jīng)過(guò)了一定的清洗,比如字段的統(tǒng)一,臟數(shù)據(jù)的去除等,但是數(shù)據(jù)的粒度是不會(huì)變化的。ODS層的數(shù)據(jù)可以只保留一定的時(shí)間。

          MID中間層是采用Inmon集線器架構(gòu)的方式,使用范式建模(貼源)的方法。這一層主要是做規(guī)范化的事情,比如應(yīng)用庫(kù)表非規(guī)范化,字段格式復(fù)雜(json格式)需做一些處理。這一層不是必須有的。也不會(huì)對(duì)外開(kāi)放使用。范式建模保證了數(shù)據(jù)一致性、唯一性、正確性。

          DW-DM層是采用Kimball的總線式的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),針對(duì)部門(mén)(比如財(cái)務(wù)部門(mén))或者某一主題(比如商戶、用戶),通過(guò)維度建模(推薦星型模型),構(gòu)建一致性維度,原子粒度的數(shù)據(jù)是DW層,按照實(shí)體或者主題經(jīng)過(guò)一定的匯總,建設(shè)數(shù)據(jù)集市模型。數(shù)據(jù)集市可以為OLAP提供服務(wù)。

          為什么要分層的思考?

          空間換時(shí)間。通過(guò)建設(shè)多層次的數(shù)據(jù)模型供用戶使用,避免用戶直接使用操作型數(shù)據(jù),可以更高效的訪問(wèn)數(shù)據(jù)。?把復(fù)雜問(wèn)題簡(jiǎn)單化。講一個(gè)復(fù)雜的任務(wù)分解成多個(gè)步驟來(lái)完成,每一層只處理單一的步驟,比較簡(jiǎn)單和容易理解。而且便于維護(hù)數(shù)據(jù)的準(zhǔn)確性,當(dāng)數(shù)據(jù)出現(xiàn)問(wèn)題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問(wèn)題的步驟開(kāi)始修復(fù)。?便于處理業(yè)務(wù)的變化。隨著業(yè)務(wù)的變化,只需要調(diào)整底層的數(shù)據(jù),對(duì)應(yīng)用層對(duì)業(yè)務(wù)的調(diào)整零感知.01.高效的數(shù)據(jù)組織形式

          分層的價(jià)值

          【易維護(hù)】

          面向主題的特性決定了數(shù)據(jù)倉(cāng)庫(kù)擁有業(yè)務(wù)數(shù)據(jù)庫(kù)所無(wú)法擁有的高效的數(shù)據(jù)組織形式,更加完整的數(shù)據(jù)體系,清晰的數(shù)據(jù)分類(lèi)和分層機(jī)制。因?yàn)樗袛?shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前都經(jīng)過(guò)清洗和過(guò)濾,使原始數(shù)據(jù)不再雜亂無(wú)章,基于優(yōu)化查詢的組織形式,有效提高數(shù)據(jù)獲取、統(tǒng)計(jì)和分析的效率。

          【高性能】

          數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建將大大縮短獲取信息的時(shí)間,數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)的集合,所有的信息都可以從數(shù)據(jù)倉(cāng)庫(kù)直接獲取,數(shù)據(jù)倉(cāng)庫(kù)的最大優(yōu)勢(shì)在于一旦底層從各類(lèi)數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的ETL流程構(gòu)建成型,那么每天就會(huì)有來(lái)自各方面的信息通過(guò)自動(dòng)任務(wù)調(diào)度的形式流入數(shù)據(jù)倉(cāng)庫(kù),從而使一切基于這些底層信息的數(shù)據(jù)獲取的效率達(dá)到迅速提升。

          從應(yīng)用來(lái)看,使用數(shù)據(jù)倉(cāng)庫(kù)可以大大提高數(shù)據(jù)的查詢效率,尤其對(duì)于海量數(shù)據(jù)的關(guān)聯(lián)查詢和復(fù)雜查詢,所以數(shù)據(jù)倉(cāng)庫(kù)有利于實(shí)現(xiàn)復(fù)雜的統(tǒng)計(jì)需求,提高數(shù)據(jù)統(tǒng)計(jì)的效率。

          【簡(jiǎn)單化】

          數(shù)據(jù)倉(cāng)庫(kù)是所有數(shù)據(jù)的集合,包括日志信息、數(shù)據(jù)庫(kù)數(shù)據(jù)、文本數(shù)據(jù)、外部數(shù)據(jù)等都集成在數(shù)據(jù)倉(cāng)庫(kù)中,對(duì)于應(yīng)用來(lái)說(shuō),實(shí)現(xiàn)各種不同數(shù)據(jù)的關(guān)聯(lián)并使多維分析更加方便,為從多角度多層次地?cái)?shù)據(jù)分析和決策制定提供的可能。

          【歷史性】

          記錄歷史是數(shù)據(jù)倉(cāng)庫(kù)的特性之一,數(shù)據(jù)倉(cāng)庫(kù)能夠還原歷史時(shí)間點(diǎn)上的產(chǎn)品狀態(tài)、用戶狀態(tài)、用戶行為等,以便于能更好的回溯歷史,分析歷史,跟蹤用戶的歷史行為,更好地比較歷史和總結(jié)歷史,同時(shí)根據(jù)歷史預(yù)測(cè)未來(lái)。


          --end--


          掃描下方二維碼
          添加好友,備注【交流
          可私聊交流,也可進(jìn)資源豐富學(xué)習(xí)群

          瀏覽 94
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  超碰在线97免费 | 爆乳一区二区 | 蜜芽成人在线观看 | 自拍毛片 | 成人伊人网在线 |