數(shù)倉相關(guān)面試題
數(shù)倉構(gòu)建
關(guān)于數(shù)倉構(gòu)建,推薦閱讀:《數(shù)據(jù)倉庫架構(gòu)和建設(shè)方法論》、《企業(yè)大數(shù)據(jù)平臺(tái)倉庫架構(gòu)建設(shè)思路》、《詳解數(shù)據(jù)倉庫的實(shí)施步驟》。
區(qū)別主要是數(shù)倉數(shù)據(jù)存儲(chǔ)的地方不同,傳統(tǒng)數(shù)倉數(shù)據(jù)存儲(chǔ)在Mysql/Oracle等關(guān)系型數(shù)據(jù)庫上,大數(shù)據(jù)數(shù)倉存儲(chǔ)在Hadoop平臺(tái)的Hive中(實(shí)際上是HDFS中),當(dāng)然也有其他的數(shù)倉產(chǎn)品比如TD、Greenplum等。
數(shù)據(jù)的準(zhǔn)確性,記得在一個(gè)統(tǒng)計(jì)網(wǎng)站上看過,好多數(shù)倉因?yàn)閿?shù)據(jù)不準(zhǔn)確被終止。數(shù)據(jù)的真正價(jià)值在于數(shù)據(jù)驅(qū)動(dòng)決策,通過數(shù)據(jù)指導(dǎo)運(yùn)營,在一個(gè)不準(zhǔn)確的數(shù)據(jù)驅(qū)動(dòng)下,結(jié)果可想而知。
元數(shù)據(jù)的建設(shè)與管理是其中重要的一個(gè)環(huán)節(jié)。元數(shù)據(jù)建設(shè)的目標(biāo)是打通數(shù)據(jù)從接入到加工,再到數(shù)據(jù)消費(fèi)的整個(gè)鏈路,規(guī)范元數(shù)據(jù)體系與模型,提供統(tǒng)一的元數(shù)據(jù)服務(wù)出口,保障元數(shù)據(jù)產(chǎn)出的穩(wěn)定性和質(zhì)量。首先梳理清楚元倉底層數(shù)據(jù),對(duì)元數(shù)據(jù)做分類,如計(jì)算元數(shù)據(jù)、存儲(chǔ)元數(shù)據(jù)、質(zhì)量元數(shù)據(jù)等,減少數(shù)據(jù)重復(fù)建設(shè),保障數(shù)據(jù)的唯一性。
在明確數(shù)據(jù)治理是數(shù)據(jù)管理的一部分之后,下一個(gè)問題就是定義數(shù)據(jù)管理。治理相對(duì)容易界定,它是用來明確相關(guān)角色、工作責(zé)任和工作流程的,確保數(shù)據(jù)資產(chǎn)能長期有序地、可持續(xù)地得到管理。
1. 數(shù)據(jù)質(zhì)量保證原則:完整性,準(zhǔn)確性,數(shù)據(jù)質(zhì)量,及時(shí)性,一致性
元數(shù)據(jù)的理解?元數(shù)據(jù)管理系統(tǒng)?
元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL任務(wù)的運(yùn)行狀態(tài)。
結(jié)合Inmon和Kimball的集線器式和總線式的數(shù)據(jù)倉庫的優(yōu)點(diǎn),分層可為ODS【-MID】-DW-DM-OLAP/OLAM/app(不同企業(yè)略有差異)。
空間換時(shí)間:通過建設(shè)多層次的數(shù)據(jù)模型供用戶使用,避免用戶直接使用操作型數(shù)據(jù),可以更高效的訪問數(shù)據(jù)。
面向主題的特性決定了數(shù)據(jù)倉庫擁有業(yè)務(wù)數(shù)據(jù)庫所無法擁有的高效的數(shù)據(jù)組織形式,更加完整的數(shù)據(jù)體系,清晰的數(shù)據(jù)分類和分層機(jī)制。因?yàn)樗袛?shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前都經(jīng)過清洗和過濾,使原始數(shù)據(jù)不再雜亂無章,基于優(yōu)化查詢的組織形式,有效提高數(shù)據(jù)獲取、統(tǒng)計(jì)和分析的效率。
【高性能】
數(shù)據(jù)倉庫的構(gòu)建將大大縮短獲取信息的時(shí)間,數(shù)據(jù)倉庫作為數(shù)據(jù)的集合,所有的信息都可以從數(shù)據(jù)倉庫直接獲取,數(shù)據(jù)倉庫的最大優(yōu)勢(shì)在于一旦底層從各類數(shù)據(jù)源到數(shù)據(jù)倉庫的ETL流程構(gòu)建成型,那么每天就會(huì)有來自各方面的信息通過自動(dòng)任務(wù)調(diào)度的形式流入數(shù)據(jù)倉庫,從而使一切基于這些底層信息的數(shù)據(jù)獲取的效率達(dá)到迅速提升。
【簡(jiǎn)單化】
數(shù)據(jù)倉庫是所有數(shù)據(jù)的集合,包括日志信息、數(shù)據(jù)庫數(shù)據(jù)、文本數(shù)據(jù)、外部數(shù)據(jù)等都集成在數(shù)據(jù)倉庫中,對(duì)于應(yīng)用來說,實(shí)現(xiàn)各種不同數(shù)據(jù)的關(guān)聯(lián)并使多維分析更加方便,為從多角度多層次地?cái)?shù)據(jù)分析和決策制定提供的可能。
【歷史性】
記錄歷史是數(shù)據(jù)倉庫的特性之一,數(shù)據(jù)倉庫能夠還原歷史時(shí)間點(diǎn)上的產(chǎn)品狀態(tài)、用戶狀態(tài)、用戶行為等,以便于能更好的回溯歷史,分析歷史,跟蹤用戶的歷史行為,更好地比較歷史和總結(jié)歷史,同時(shí)根據(jù)歷史預(yù)測(cè)未來。
評(píng)論
圖片
表情
