數(shù)倉(cāng)(一)簡(jiǎn)介數(shù)倉(cāng),OLTP和OLAP
一、數(shù)倉(cāng)定義
按照傳統(tǒng)的定義,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、非易失的、反映歷史變化(隨時(shí)間變化),用來(lái)支持管理人員決策的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)是一套數(shù)據(jù)組織和應(yīng)用的方法論,是需要很多的支持系統(tǒng)來(lái)協(xié)助(包含類似數(shù)據(jù)庫(kù)這樣的存儲(chǔ)系統(tǒng)),最后達(dá)到支持分析決策的目的。
1、面向主題
關(guān)系型數(shù)據(jù)庫(kù)
面向事務(wù)處理任務(wù),用于記錄狀態(tài)。
數(shù)倉(cāng)
數(shù)倉(cāng)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織,主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。
比如:銀行的數(shù)據(jù)倉(cāng)庫(kù)的主題:客戶

關(guān)系型數(shù)據(jù)庫(kù)
數(shù)倉(cāng)
關(guān)系型數(shù)據(jù)庫(kù)
數(shù)倉(cāng)
關(guān)系型數(shù)據(jù)庫(kù)
數(shù)倉(cāng)
關(guān)系型數(shù)據(jù)庫(kù)
數(shù)倉(cāng)
二、建設(shè)數(shù)倉(cāng)的目的
數(shù)倉(cāng)的建設(shè)并不是數(shù)據(jù)存儲(chǔ)的最終目的地,而是為數(shù)據(jù)最終的目的地做好準(zhǔn)備:清洗、轉(zhuǎn)義、分類、重組、合并、拆分、統(tǒng)計(jì)等等。通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的分析,可以幫助企業(yè),改進(jìn)業(yè)務(wù)流程、控制、成本、提高產(chǎn)品質(zhì)量等。
1、理清數(shù)據(jù)資產(chǎn)提高排查和開(kāi)發(fā)運(yùn)維效率
場(chǎng)景:
不知道有什么數(shù)據(jù)、找誰(shuí)要數(shù)據(jù);
多個(gè)系統(tǒng)不同的數(shù)據(jù)字段的含義
數(shù)據(jù)如何生成和更新的,數(shù)據(jù)依賴關(guān)系割裂;
2、提高數(shù)據(jù)質(zhì)量
場(chǎng)景
字段命名不規(guī)范、口徑不一致;
條件的過(guò)濾和規(guī)則等的理解差異帶來(lái)的算法不一致;
3、數(shù)據(jù)解耦
場(chǎng)景
上下游依賴混亂
復(fù)雜問(wèn)題耦合在一起
每次從原始數(shù)據(jù)取數(shù),數(shù)據(jù)開(kāi)發(fā)周期長(zhǎng)
業(yè)務(wù)數(shù)據(jù)輕微改動(dòng)帶來(lái)的變更過(guò)大,無(wú)中間表加工
4、解決頻繁的臨時(shí)性需求
場(chǎng)景
報(bào)送監(jiān)管歷史數(shù)據(jù)
臨時(shí)數(shù)據(jù)需要交叉
雖然數(shù)倉(cāng)建設(shè)能帶來(lái)諸多的益處,但數(shù)倉(cāng)的建設(shè)不是一天建成的,是一個(gè)龐大復(fù)雜耗時(shí)的工程,需要很多支持系統(tǒng)的配合:元數(shù)據(jù)管理系統(tǒng)、調(diào)度系統(tǒng)等,要根據(jù)業(yè)務(wù)發(fā)展所處的狀態(tài)和未來(lái)的發(fā)展趨勢(shì)以及分析決策的復(fù)雜性等綜合來(lái)搭建。
總結(jié):
了解數(shù)倉(cāng)的特點(diǎn);
了解建設(shè)數(shù)倉(cāng)的目的意義,能解決什么問(wèn)題等
還介紹了建立數(shù)倉(cāng)的目的:數(shù)倉(cāng)的建設(shè)并不是數(shù)據(jù)存儲(chǔ)的最終目的地,而是為數(shù)據(jù)最終的目的地做好準(zhǔn)備:清洗、轉(zhuǎn)義、分類、重組、合并、拆分、統(tǒng)計(jì)等等。通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的分析,可以幫助企業(yè),改進(jìn)業(yè)務(wù)流程、控制、成本、提高產(chǎn)品質(zhì)量等。
下面介紹一下兩個(gè)重要的數(shù)據(jù)處理的類型OLTP和OLAP,并通過(guò)比對(duì)總結(jié),從而更好的理解兩種數(shù)據(jù)處理類型。
三、數(shù)據(jù)處理“分家”
隨著關(guān)系型數(shù)據(jù)庫(kù)理論的提出,誕生了一系列經(jīng)典的RDBMS,如DB2、Oracle,SQL Server、MySQL等。隨著數(shù)據(jù)庫(kù)使用范圍的不斷擴(kuò)大,根據(jù)操作業(yè)務(wù)不同類型,被逐步劃分為兩大處理的類型:
1、處理業(yè)務(wù)型數(shù)據(jù)庫(kù)
主要用于業(yè)務(wù)支撐。比如:銀行往往會(huì)使用并維護(hù)若干個(gè)數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)保存著日常操作數(shù)據(jù),如理財(cái)購(gòu)買、核心系統(tǒng)、信用卡數(shù)據(jù)、內(nèi)部管理系統(tǒng)等。
2、分析歷史數(shù)據(jù)型數(shù)據(jù)庫(kù)
主要用于歷史數(shù)據(jù)分析。這類數(shù)據(jù)庫(kù)作為公司的單獨(dú)數(shù)據(jù)存儲(chǔ),利用歷史數(shù)據(jù)對(duì)公司各主題域進(jìn)行統(tǒng)計(jì)分析。比如:銀行對(duì)客戶AUM統(tǒng)計(jì)、對(duì)征信的統(tǒng)計(jì)評(píng)估等。
為什么要分家?
能不能構(gòu)建一個(gè)同樣適用于操作和分析的統(tǒng)一數(shù)據(jù)庫(kù)?目前的解決方案是不適合!
因?yàn)閿?shù)據(jù)之間會(huì)"打架";
如果操作型任務(wù)和分析型任務(wù)搶資源怎么辦呢?
同時(shí)處理數(shù)據(jù)怎么保證數(shù)據(jù)一致性呢?
后面我們會(huì)分析這兩個(gè)類型是完全不一樣的操作。即一個(gè)是面向操作即OLTP一個(gè)是面向分析(主題)即OLAP。
1、函數(shù)依賴

完全函數(shù)依賴
部分函數(shù)依賴
傳遞函數(shù)依賴
第一范式:屬性不可切分

第二范式:不能存在"部分函數(shù)依賴"

第三范式:不能存在"傳遞函數(shù)依賴"


從上面這個(gè)建模客戶表圖中可以看出,物理表數(shù)量多,而數(shù)據(jù)冗余程度低;
數(shù)據(jù)分布于眾多的表中;
這些數(shù)據(jù)可以更為靈活地被應(yīng)用,功能性較強(qiáng);
但是一次修改,需要修改多個(gè)表,很難保證數(shù)據(jù)的一致性;
并且獲取數(shù)據(jù)時(shí)候,需要通過(guò)join拼接出最后的數(shù)據(jù)。

上圖為維度模型建模片段,主要應(yīng)用于 OLAP 系統(tǒng)中; 通常以某一個(gè)事實(shí)表為中心進(jìn)行表的組織,主要面向業(yè)務(wù),特征是可能存在數(shù)據(jù)的冗余,但是能方便的得到數(shù)據(jù)。
了解數(shù)據(jù)庫(kù)的三范式 OLTP和OLAP兩種數(shù)據(jù)處理類型; 通過(guò)對(duì)比加深對(duì)OLAP的認(rèn)知;
>>>>
Q&A
MySQL是作為OLTP數(shù)據(jù)庫(kù)使用的。但是也能執(zhí)行一些OLAP操作,比如里面8.0包括窗口函數(shù),通用表達(dá)式和更強(qiáng)大的Join能力,但這不是MySQL擅長(zhǎng)的領(lǐng)域。 OLTP和OLAP都是通過(guò)SQL來(lái)執(zhí)行,但SQL語(yǔ)句只是描述了我想要什么,而并沒(méi)有說(shuō)明應(yīng)該怎么做(不考慮hint等),即確定最優(yōu)的執(zhí)行計(jì)劃。由于一般OLTP操作比較簡(jiǎn)單,所涉及的表也少,因此不需要相應(yīng)的數(shù)據(jù)庫(kù)具有強(qiáng)大的執(zhí)行優(yōu)化能力。 OLAP類操作需要強(qiáng)大的執(zhí)行計(jì)劃產(chǎn)生和優(yōu)化能力。 當(dāng)然,如果總數(shù)據(jù)量較小,那MySQL也是能夠應(yīng)付的。數(shù)據(jù)量大,需要OLAP解決方案。
數(shù)據(jù)倉(cāng)庫(kù)第4版 DAMA數(shù)據(jù)管理知識(shí)體系指南 華為數(shù)據(jù)之道
