數(shù)據(jù)管理之元數(shù)據(jù)管理
01 元數(shù)據(jù)的定義
元數(shù)據(jù)是指來自企業(yè)內(nèi)外的所有物理數(shù)據(jù)和知識,包括物理數(shù)據(jù)的格式,技術和業(yè)務過程,數(shù)據(jù)的規(guī)則和約束以及企業(yè)所使用數(shù)據(jù)的結構。
元數(shù)據(jù)其實就是知識,包括系統(tǒng),業(yè)務和市場的知識。
02 元數(shù)據(jù)的作用
元數(shù)據(jù)處于數(shù)據(jù)倉庫的上層,記錄數(shù)據(jù)倉庫中對象的位置,是內(nèi)部技術人員開發(fā)與維護數(shù)據(jù)倉庫的藍圖,是業(yè)務中用戶導航數(shù)據(jù)倉庫以及定位有用信息的路標。
數(shù)據(jù)倉庫系統(tǒng)獲取,共享和管理元數(shù)據(jù)主要有兩個目的:
1. 作為描述性信息,描述系統(tǒng)的結構特征和靜態(tài)特征;
2. 作為控制性信息,控制并配置特定工具和進程運行,實現(xiàn)數(shù)據(jù)倉庫管理和維護的(半)自動化管理。
元數(shù)據(jù)機制主要支持以下 5 類系統(tǒng)管理功能:
1. 描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;
2. 定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);
3. 記錄根據(jù)業(yè)務事件發(fā)生而對其進行的數(shù)據(jù)抽取工作時間安排;
4. 記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;
5. 衡量數(shù)據(jù)質(zhì)量;
元數(shù)據(jù)起到的作用
1. 用于集成各類復雜繁多的信息,是進行數(shù)據(jù)集成所必需的?;
數(shù)據(jù)倉庫最大的特點就是它的集成性。這一特點不僅體現(xiàn)在它所包含的數(shù)據(jù)上,還體現(xiàn)在實施數(shù)據(jù)倉庫項目的過程當中。一方面,從各個數(shù)據(jù)源中抽取的數(shù)據(jù)要按照一定的模式存入數(shù)據(jù)倉庫中,這些數(shù)據(jù)源與數(shù)據(jù)倉庫中數(shù)據(jù)的對應關系及轉(zhuǎn)換規(guī)則都要存儲在元數(shù)據(jù)知識庫中;另一方面,在數(shù)據(jù)倉庫項目實施過程中,直接建立數(shù)據(jù)倉庫往往費時、費力,因此在實踐當中,人們可能會按照統(tǒng)一的數(shù)據(jù)模型,首先建設數(shù)據(jù)集市,然后在各個數(shù)據(jù)集市的基礎上再建設數(shù)據(jù)倉庫。不過,當數(shù)據(jù)集市數(shù)量增多時很容易形成“蜘蛛網(wǎng)”現(xiàn)象,而元數(shù)據(jù)管理是解決“蜘蛛網(wǎng)”的關鍵。如果在建立數(shù)據(jù)集市的過程中,注意了元數(shù)據(jù)管理,在集成到數(shù)據(jù)倉庫中時就會比較順利;相反,如果在建設數(shù)據(jù)集市的過程中忽視了元數(shù)據(jù)管理,那么最后的集成過程就會很困難,甚至不可能實現(xiàn)。
2. 元數(shù)據(jù)定義的語義層可以幫助最終用戶理解數(shù)據(jù)倉庫中的數(shù)據(jù)?;
最終用戶不可能象數(shù)據(jù)倉庫系統(tǒng)管理員或開發(fā)人員那樣熟悉數(shù)據(jù)庫技術,因此迫切需要有一個“翻譯”,能夠使他們清晰地理解數(shù)據(jù)倉庫中數(shù)據(jù)的含意。元數(shù)據(jù)可以實現(xiàn)業(yè)務模型與數(shù)據(jù)模型之間的映射,因而可以把數(shù)據(jù)以用戶需要的方式“翻譯”出來,從而幫助最終用戶理解和使用數(shù)據(jù)。
3. 可以支持需求動態(tài)變化,系統(tǒng)各項表現(xiàn)(界面)的靈活性;
4. 可以提高和保證數(shù)據(jù)的質(zhì)量;
數(shù)據(jù)倉庫或數(shù)據(jù)集市建立好以后,使用者在使用的時候,常常會產(chǎn)生對數(shù)據(jù)的懷疑。這些懷疑往往是由于底層的數(shù)據(jù)對于用戶來說是不“透明”的,使用者很自然地對結果產(chǎn)生懷疑。而借助元數(shù)據(jù)管理系統(tǒng),最終的使用者對各個數(shù)據(jù)的來龍去脈以及數(shù)據(jù)抽取和轉(zhuǎn)換的規(guī)則都會很方便地得到,這樣他們自然會對數(shù)據(jù)具有信心;當然也可便捷地發(fā)現(xiàn)數(shù)據(jù)所存在的質(zhì)量問題。甚至國外有學者還在元數(shù)據(jù)模型的基礎上引入質(zhì)量維,從更高的角度上來解決這一問題。?
5. 可以支持多種工具的開發(fā)應用;
6. 提高系統(tǒng)的安全性;
7. 可以提高系統(tǒng)的智能性;
8. 元數(shù)據(jù)可以支持需求變化?
隨著信息技術的發(fā)展和企業(yè)職能的變化,企業(yè)的需求也在不斷地改變。如何構造一個隨著需求改變而平滑變化的軟件系統(tǒng),是軟件工程領域中的一個重要問題。傳統(tǒng)的信息系統(tǒng)往往是通過文檔來適應需求變化,但是僅僅依靠文檔還是遠遠不夠的。成功的元數(shù)據(jù)管理系統(tǒng)可以把整個業(yè)務的工作流、數(shù)據(jù)流和信息流有效地管理起來,使得系統(tǒng)不依賴特定的開發(fā)人員,從而提高系統(tǒng)的可擴展性。
03 元數(shù)據(jù)分類
05 元數(shù)據(jù)的標準化
CWM提出的背景?
從數(shù)據(jù)倉庫開發(fā)者的角度:單一工具很少能完全滿足用戶不斷變化的需求,但同時又很難對各種產(chǎn)品進行集成;?
從數(shù)據(jù)倉庫用戶的角度:面對的信息量太大,無法輕易找到自己真正需要的,而且把這些信息完整正確地表示出來也是個挑戰(zhàn);?
從數(shù)據(jù)倉庫供應商的角度:目前信息的共享還沒有標準格式,元數(shù)據(jù)集成的代價太大;?
現(xiàn)在有很多數(shù)據(jù)倉庫產(chǎn)品,它們對元數(shù)據(jù)都有自己的定義和格式,因此創(chuàng)建、管理和共享元數(shù)據(jù)很耗時而且容易出錯。要解決上面這些問題,必須用標準的語言描述數(shù)據(jù)倉庫元數(shù)據(jù)的結構和語義,并提供標準的元數(shù)據(jù)交換機制。CWM就是滿足這些條件的一個規(guī)范。OMG在2000年發(fā)布了CWM規(guī)范,旨在推動數(shù)據(jù)倉庫、智能商務和知識管理方面元數(shù)據(jù)的共享和交換。和OMG合作提出CWM規(guī)范的公司有:IBM,Unisys,NCR,Hyperion Solutions,Oracle,UBS AG,Genesis Development,Dimension EDI。還有一些公司明確表示支持CWM,包括:Deere & Company,Sun,HP,Data Access Technologies,InLine Software,Aonix,Hitachi, Ltd。
OMG在1995年采用了MOF(Meta Object Facility),并不斷完善之。1997年采用了UML,2000年發(fā)布了公共倉庫元模型 CWM (Common Warehouse Metamodel) 規(guī)范。主要目的是在異構環(huán)境下,幫助不同的數(shù)據(jù)倉庫工具,平臺和元數(shù)據(jù)知識庫進行元數(shù)據(jù)交換。這三個標準:UML、MOF和CWM形成了OMG建模和元數(shù)據(jù)管理、交換結構的基礎,推動了元數(shù)據(jù)標準化的快速發(fā)展。CWM 模型既包括元數(shù)據(jù)存儲,也包括元數(shù)據(jù)交換,它是基于以下 3 個工業(yè)標準制定的。
UML:它定義了表示模型和元模型的語法和語義,對 CWM 模型進行建模;
MOF:元對象設施它是OMG 元模型和元數(shù)據(jù)的存儲標準,提供在異構環(huán)境下對元數(shù)據(jù)知識庫的訪問接口為構造模型和元模型提供了可擴展的框架,并提供了存取元數(shù)據(jù)的程序接口;
XMI:XML元數(shù)據(jù)交換。它可以使元數(shù)據(jù)以 XML 文件的方式進行交換,大大增強了 CWM 的通用性
OMG 元數(shù)據(jù)知識庫體系結構如下圖所示:
OMG的元數(shù)據(jù)倉儲體系結構
CWM為數(shù)據(jù)倉庫和商業(yè)智能(BI)工具之間共享元數(shù)據(jù),制定了一整套關于語法和語義的規(guī)范。它主要包含以下四個方面的規(guī)范:?
(1) CWM元模型(Metamodel):描述數(shù)據(jù)倉庫系統(tǒng)的模型;?
(2) CWM XML:CWM元模型的XML表示;?
(3) CWM DTD:DW/BI共享元數(shù)據(jù)的交換格式?
(4) CWM IDL:DW/BI共享元數(shù)據(jù)的應用程序訪問接口(API)?
下面重點討論CWM元模型的組成,它與OIM規(guī)范一樣,也是由很多包組成的。組成CWM元模型的包結構如圖所示。
CWM元模型的包結構
CWM元模型主要包括四層:基礎包Foundation,資源包Resource,分析包Analysis和管理包Management。?
基礎包主要定義了為CWM其它包所共享的一些基本概念和結構,它包含的子包有:?
Business Information:定義了面向業(yè)務的通用信息,比如負責人信息等;?
Data Types:定義了其它包用以創(chuàng)建自己所需的數(shù)據(jù)類型的元模型組件;?
Expressions:定義了CWM其它包定義表達式樹所需的元模型組件;?
Keys and Indexes:定義了描述關鍵字和索引的共享元模型;?
Software Deployment:描述一個軟件在數(shù)據(jù)倉庫中如何被使用的元模型;?
Type Mapping:支持不同系統(tǒng)之間數(shù)據(jù)類型的映射的元模型;?
資源包主要定義了一些描述常用的數(shù)據(jù)源/目標的元模型,它包含的子包有:?
Relational:描述通過關系型接口訪問的數(shù)據(jù)庫的數(shù)據(jù)模型和元模型,比如RDBMS,ODBC,JDBC等;?
Record:描述記錄的基本概念和結構的元模型,這里記錄的概念很廣泛,它可以描述任何結構化的信息,比如數(shù)據(jù)庫的一條記錄、文檔等;?
Multidimensional:描述多維型數(shù)據(jù)庫的元模型;?
XML:描述用XML表示的數(shù)據(jù)源和數(shù)據(jù)目標;?
分析包主要定義了一些描述數(shù)據(jù)倉庫工具的元模型,它包含的子包有:?
Transformation:定義數(shù)據(jù)倉庫中抽取轉(zhuǎn)換規(guī)則的元模型,它包含對各種類型數(shù)據(jù)源之間的轉(zhuǎn)換規(guī)則的描述;?
OLAP:對OLAP工具和應用進行描述,并定義了它到實際系統(tǒng)的映射;?
Data Mining:對數(shù)據(jù)挖掘工具和應用進行描述;?
Information Visualization:定義了問題領域中有關信息發(fā)布或者信息可視化的元模型;?
Business Nomenclature:對業(yè)務數(shù)據(jù)進行描述,比如業(yè)務術語及其適用范圍等;?
管理包主要定義了一些描述數(shù)據(jù)倉庫運行和調(diào)度信息的元模型,它包含的子包有:?
Warehouse Process:描述數(shù)據(jù)倉庫中抽取轉(zhuǎn)換規(guī)則的執(zhí)行過程,也就是各個轉(zhuǎn)換規(guī)則的觸發(fā)條件;?
Warehouse Operation:描述數(shù)據(jù)倉庫日常運行情況的元模型;
06 元數(shù)據(jù)管理系統(tǒng)的設計原則?
數(shù)據(jù)倉庫環(huán)境下的元數(shù)據(jù)管理系統(tǒng)的建設是十分困難的。但是在實際項目的實施過程中,這個環(huán)節(jié)又是非常重要的。當前情況下,我們認為OMG組織的CWM標準將會成為數(shù)據(jù)倉庫元數(shù)據(jù)領域事實上的標準,在元數(shù)據(jù)管理系統(tǒng)的建立過程中應盡量參考這個標準,這樣使系統(tǒng)的可擴展性增強。可是在與之相關的工具成熟之前,我們完全可以采用OIM中的元模型(因CWM對OIM是兼容的)以及支持它的元數(shù)據(jù)管理工具進行元數(shù)據(jù)管理系統(tǒng)的建設,而且元數(shù)據(jù)所包含的范圍很廣。我們在建立元數(shù)據(jù)管理系統(tǒng)的時候,絕對不能盲目追求大而全,要堅持目標驅(qū)動的原則,在實施的時候要采取增量式、漸進式的建設原則。具體的建設步驟如下:?
(1)如果是在建設數(shù)據(jù)倉庫系統(tǒng)的初期,那么首先要確定系統(tǒng)的邊界范圍,系統(tǒng)范圍確定的原則是首先保障重點,不求大,只求精。?
(2)系統(tǒng)邊界確定以后,把現(xiàn)有系統(tǒng)的元數(shù)據(jù)整理出來,加入語義層的對應。然后存到一個數(shù)據(jù)庫中,這個數(shù)據(jù)庫可以采用專用的元數(shù)據(jù)知識庫,也可以采用一般的關系型數(shù)據(jù)庫。?
(3)確定元數(shù)據(jù)管理的范圍。比如,我們只想通過元數(shù)據(jù)來管理數(shù)據(jù)倉庫中數(shù)據(jù)的轉(zhuǎn)換過程,以及有關數(shù)據(jù)的抽取路線,以使數(shù)據(jù)倉庫開發(fā)和使用人員明白倉庫中數(shù)據(jù)的整個歷史過程。?
(4)確定元數(shù)據(jù)管理的工具,采用一定的工具可以完成相應的工作。當前相關工具有微軟的Repositry,它帶有相應的編程接口,可以借助于它來完成元模型出入庫的功能;與之相似的還有Platinum的OEE;另外還有Sybase的Wcc,它可以通過MDC以前的一個老標準――MDIS來集成抽取工具與轉(zhuǎn)換工具,在一個窗口中就可以表示數(shù)據(jù)抽取與轉(zhuǎn)換,并且可以把語義層以MDIS的格式導出到一個前端工具當中(比如Cognos的Improptu)。
07元數(shù)據(jù)管理的策略
要進行成功的元數(shù)據(jù)集成,必須建立一個一致且合理的管理策略,共享和重用指定目標和需求。
全局安全策略。
元數(shù)據(jù)是一個具有高敏感性和戰(zhàn)略價值的信息財富,必須包含一個全面的安全策略來保證元數(shù)據(jù)得到充分保護。
對每個元數(shù)據(jù)元素語義的一致理解。
軟件組件所用到的每一種元數(shù)據(jù)元素的語義必須存在一致,這直接影響到元數(shù)據(jù)的共享和重用。
每個元數(shù)據(jù)的所有權。
必須確定哪些個體或哪些組件是一個特定元數(shù)據(jù)元素的最終所有者。要確保元數(shù)據(jù)的所有權最終屬于元數(shù)據(jù)的,主要項目相關人員,而不是屬于數(shù)據(jù)倉庫的技術管理員或者開發(fā)者。
元數(shù)據(jù)元素的版本控制。必須為被管理的元數(shù)據(jù)設立專門的版本控制規(guī)則。
08 元數(shù)據(jù)管理產(chǎn)品設計
元數(shù)據(jù)管理的應用通常一款元數(shù)據(jù)管理工具應具備元模型設計、元數(shù)據(jù)采集、元數(shù)據(jù)分析、數(shù)據(jù)地圖展現(xiàn)等核心功能。元數(shù)據(jù)包括:元模型、元數(shù)據(jù)采集、元數(shù) 據(jù)注冊、元數(shù)據(jù)應用、元數(shù)據(jù)服務等;
8.1 架構設計
?
數(shù)據(jù)源層?
數(shù)據(jù)源層是指元數(shù)據(jù)管理平臺所支持的元數(shù)據(jù)來源的方式。提供直連多種不同類型的數(shù)據(jù)源,包括:數(shù)據(jù)庫類型、ETL 類型、文件類型、業(yè)務系統(tǒng)類型等。?
采集層
采集層針對不同數(shù)據(jù)源提供豐富的適配器,實現(xiàn)端到端的自動化采集。具體包括:sqlserver、oracle、mysql、postgresql、petabase、ODI、Excel等。同時支持適配器擴展,實現(xiàn)最大限度的自動化采集。
數(shù)據(jù)層
元數(shù)據(jù)數(shù)據(jù)層是基于關系數(shù)據(jù)庫的元數(shù)據(jù)存儲,用于實現(xiàn)元數(shù)據(jù)和元模型的數(shù)據(jù) 的物理存儲。元模型存儲了元數(shù)據(jù)的屬性要求和存儲格式要求。元數(shù)據(jù)存儲了從各個 系統(tǒng)中采集而來的元數(shù)據(jù)信息。
功能層
元數(shù)據(jù)功能層提供了元數(shù)據(jù)管理產(chǎn)品的基本功能,包括元模型增刪改查及版本發(fā) 布功能、元數(shù)據(jù)增刪改查及版本管理、元數(shù)據(jù)變更管理、元數(shù)據(jù)分析應用、元數(shù)據(jù)檢 核以及產(chǎn)品的系統(tǒng)管理功能。其中元模型管理模塊用于操作元模型,元模型是對各個種類元數(shù)據(jù)以及元數(shù)據(jù)之 間關系的定義,元模型包括兩部分:一部分由元數(shù)據(jù)管理平臺產(chǎn)品內(nèi)置的標準元模型, 另一部分是用戶根據(jù)管理需求自定義的元模型。元模型管理還設計了發(fā)布功能,只有 在發(fā)布之后才會生效,使用戶在設計元模型時,不會影響到元數(shù)據(jù)的使用。元數(shù)據(jù)管理主要包括了元數(shù)據(jù)增刪改查日常維護,版本管理,元數(shù)據(jù)全文檢索。元數(shù)據(jù)分析應用主要包括了血緣分析、影響分析、關聯(lián)度分析、數(shù)據(jù)地圖等多種 圖形化分析應用,并提供導出和收藏功能,將分享結果進行留檔。元數(shù)據(jù)檢核包括一致性檢核、屬性填充率檢核和組合關系檢核,是保障元數(shù)據(jù)質(zhì) 量的重要手段之一系統(tǒng)管理功能包括了機構用戶角色的權限管理、系統(tǒng)備份恢復、門戶應用、日志 管理、系統(tǒng)監(jiān)控等系統(tǒng)運維相關的功能。
訪問層
元數(shù)據(jù)訪問層用于給用戶提供訪問控制服務。元數(shù)據(jù)產(chǎn)品面向的主要用戶群有三 類:技術設計人員、業(yè)務分析人員、以及系統(tǒng)的運維人員。通過門戶訪問和后臺訪問, 可以實現(xiàn)多種角色的訪問控制。同時訪問層還提供了多種形式的接口服務,可以很方 便的與其它 IT 系統(tǒng)進行集成。
8.1 元數(shù)據(jù)采集服務:能夠適應異構環(huán)境,支持從傳統(tǒng)關系型數(shù)據(jù)庫和大數(shù)據(jù)平臺中采集從數(shù)據(jù)產(chǎn)生系統(tǒng)到數(shù)據(jù)加工處理系統(tǒng)到數(shù)據(jù)應用報表系統(tǒng)的全量元數(shù)據(jù),包括過程中的數(shù)據(jù)實體(系統(tǒng)、庫、表、字段的描述)以及數(shù)據(jù)實體加工處理過程中的邏輯;數(shù)據(jù)管理平臺內(nèi)置多種采集適配器,支持多種存儲格式的元數(shù)據(jù)自動獲取,如:數(shù)據(jù)庫、報表工具、ETL工具、文件系統(tǒng)等,同時無法完成自動獲取的元數(shù)據(jù),提供了可自定義的元數(shù)據(jù)采集模版完成元數(shù)據(jù)的批量導入。
8.2 元數(shù)據(jù)訪問服務:元數(shù)據(jù)訪問服務是元數(shù)據(jù)管理軟件提供的元數(shù)據(jù)訪問的接口服務,一般支持REST或Webservice等接口協(xié)議。通過元數(shù)據(jù)訪問服務支持企業(yè)元數(shù)據(jù)的共享,是企業(yè)數(shù)據(jù)治理的基礎。
8.3 元數(shù)據(jù)管理服務:實現(xiàn)元數(shù)據(jù)的模型定義并存儲,在功能層包裝成各類元數(shù)據(jù)功能,最終對外提供應用及展現(xiàn);提供元數(shù)據(jù)分類和建模、血緣關系和影響分析,方便數(shù)據(jù)的跟蹤和回溯。數(shù)據(jù)管理平臺提供各類元數(shù)據(jù)管理,包括:業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)和管理元數(shù)據(jù),支持元數(shù)據(jù)的基本信息、屬性、依賴關系、組合關系的增刪改查操作。最新元數(shù)據(jù)和定版元數(shù)據(jù)隔離,在最新元數(shù)據(jù)中的改動不影響定版元數(shù)據(jù)的正常使用,同時每次發(fā)布都有版本留痕,支持各版本的對比分析。
8.4 元數(shù)據(jù)分析服務:元數(shù)據(jù)的應用一般包括數(shù)據(jù)地圖,數(shù)據(jù)的血緣、影響分析,全鏈分析等;元數(shù)據(jù)管理平臺提供了豐富的元數(shù)據(jù)分析功能,包括血緣分析、影響分析、全鏈分析、關聯(lián)度分析、屬性值差異分析等,分析出元數(shù)據(jù)的來龍去脈,快速識別元數(shù)據(jù)的價值,掌握元數(shù)據(jù)變更可能造成的影響,以便更有效的評估變化帶來的風險,從而幫助用戶高效準確的對數(shù)據(jù)資產(chǎn)進行清理、維護與使用。
血緣分析:告訴你數(shù)據(jù)來自哪里,都經(jīng)過了哪些加工。
影響分析:告訴你數(shù)據(jù)都去了哪里,經(jīng)過了哪些加工。
冷熱度分析:告訴你哪些數(shù)據(jù)是企業(yè)常用數(shù)據(jù),哪些數(shù)據(jù)屬于僵死數(shù)據(jù)。
關聯(lián)度分析:告訴你數(shù)據(jù)和其他數(shù)據(jù)的關系以及它們的關系是怎樣建立的。
數(shù)據(jù)資產(chǎn)地圖:告訴你有哪些數(shù)據(jù),在哪里可以找到這些數(shù)據(jù),能用這些數(shù)據(jù)干什么。
?
09 項目上應用
在增加數(shù)據(jù)源后會定期或者手工進行元數(shù)據(jù)采集;
在數(shù)據(jù)源更新或者數(shù)據(jù)資源更新進行元數(shù)據(jù)采集;
庫表導入或?qū)С鰧?shù)據(jù)元模型正向或反向操作;
做數(shù)據(jù)探查會對元數(shù)據(jù)訪問;
數(shù)據(jù)溯源或數(shù)據(jù)血緣
庫庫對比
庫表分析
推薦閱讀:
不是你需要中臺,而是一名合格的架構師(附各大廠中臺建設PPT)
論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?
企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!















