18禁成人av,特黄AAAAAAAAA视频免费,国产TS人妖系列高潮,永久免费一区二区三区,中文字幕欧美有码传媒人妻,影音先锋五月天,www逼逼,国产丝袜人妻制服一区

元數(shù)據(jù)管理是企業(yè)數(shù)據(jù)治理的基礎(chǔ)，是數(shù)據(jù)倉庫的提升。作為一名數(shù)據(jù)人，首要任務(wù)就是理解元數(shù)據(jù)管理。

本篇文章將為大家梳理元數(shù)據(jù)的概念，介紹元數(shù)據(jù)管理在數(shù)據(jù)倉庫的地位、場景及工具。

01 什么是數(shù)據(jù)倉庫的元數(shù)據(jù)管理？

1、什么是元數(shù)據(jù)？

元數(shù)據(jù)（Metadata），又稱中介數(shù)據(jù)、中繼數(shù)據(jù)，為描述數(shù)據(jù)的數(shù)據(jù)（data about data）。

抽象的描述：一組用于描述數(shù)據(jù)的數(shù)據(jù)組，該數(shù)據(jù)組的一切信息都描述了該數(shù)據(jù)的某方面特征，則該數(shù)據(jù)組即可被稱為元數(shù)據(jù)。

舉幾個(gè)簡單例子:

如果一本書是一個(gè)“數(shù)據(jù)"，那么它的書名、封面、出版社、作者、總頁碼就是它的“元數(shù)據(jù)”。
如果一個(gè)電影是一個(gè)“數(shù)據(jù)”，那么它的總時(shí)長、制作人、總導(dǎo)演、演員列表就是它的“元數(shù)據(jù)”。
如果數(shù)據(jù)庫中某個(gè)表是一個(gè)”數(shù)據(jù)”，那么它的列名、列類型、列長度、表注釋就是它的"元數(shù)據(jù)"。

只要有一類"事物"，就可以定義它的“元數(shù)據(jù)”。

大多數(shù)時(shí)候，元數(shù)據(jù)可以根據(jù)代表意義的不同分為業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)。

2、什么是數(shù)據(jù)倉庫？

數(shù)據(jù)倉庫，由數(shù)據(jù)倉庫之父比爾·恩門（Bill Inmon）于 1990 年提出，主要功能仍是將組織透過資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理（OLTP）經(jīng)年累月所累積的大量資料，透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu)，做有系統(tǒng)的分析整理，以利各種分析方法如聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘（Data Mining）之進(jìn)行，并進(jìn)而支持如決策支持系統(tǒng)（DSS）、主管資訊系統(tǒng)（EIS）之創(chuàng)建，幫助決策者能快速有效的自大量資料中，分析出有價(jià)值的資訊，以利決策擬定及快速回應(yīng)外在環(huán)境變動，幫助建構(gòu)商業(yè)智能（BI）。

3、什么是數(shù)據(jù)倉庫的元數(shù)據(jù)管理？

數(shù)倉中的元數(shù)據(jù)，主要記錄各主題的定義、不同層級間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及 ETL 的任務(wù)運(yùn)行狀態(tài)。一般會通過元數(shù)據(jù)資料庫來統(tǒng)一地存儲和管理元數(shù)據(jù)，其主要目的是使數(shù)據(jù)倉庫的設(shè)計(jì)、部署、操作和管理能達(dá)成協(xié)同和一致。

元數(shù)據(jù)是數(shù)據(jù)倉庫管理系統(tǒng)的重要組成部分，元數(shù)據(jù)管理是企業(yè)級數(shù)據(jù)倉庫中的關(guān)鍵組件，貫穿數(shù)據(jù)倉庫構(gòu)建的整個(gè)過程，直接影響著數(shù)據(jù)倉庫的構(gòu)建、使用和維護(hù)。

02 為什么數(shù)據(jù)倉庫要進(jìn)行元數(shù)據(jù)管理？

1、建設(shè)數(shù)據(jù)倉庫所必須

數(shù)據(jù)倉庫是由外部數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)以及文檔資料通過某些 ETL 工具得到的，如果沒有一個(gè)明確、清晰的規(guī)則，根本不可能實(shí)現(xiàn)這個(gè)過程。

2、幫助快速理解數(shù)倉系統(tǒng)

一方面，數(shù)據(jù)倉庫本質(zhì)上是一個(gè)部門甚至一個(gè)公司的重要項(xiàng)目，開發(fā)時(shí)間冗長。中間不可避免的會產(chǎn)生人員流動，如果沒有清楚的元數(shù)據(jù)，那會對整個(gè)系統(tǒng)乃和整個(gè)項(xiàng)目造成重大影響；

另一方面，數(shù)據(jù)倉庫做為整個(gè)部門、公司的分析數(shù)據(jù)出口，并不僅僅對數(shù)據(jù)人員服務(wù)。DM 層對業(yè)務(wù)人員， DIM 對其他開發(fā)人員都是不可避免的。如果有清楚的元數(shù)據(jù)來說明數(shù)倉系統(tǒng)，就會節(jié)約雙方大量的溝通時(shí)間。

3、高效精準(zhǔn)溝通

一方面，元數(shù)據(jù)中的管理元數(shù)據(jù)會記錄不同用戶、角色、部門的數(shù)據(jù)權(quán)限。如果有數(shù)據(jù)需要進(jìn)行通知，則可以快速查詢系統(tǒng)進(jìn)行群發(fā)郵件等方式進(jìn)行溝通，從而避免了造成溝通環(huán)節(jié)的缺人和多人情況發(fā)生。

另一方面，在與產(chǎn)品溝通業(yè)務(wù)或是與研發(fā)溝通接口時(shí)，可以根據(jù)業(yè)務(wù)元數(shù)據(jù)，確認(rèn)彼此溝通的指標(biāo)、維度含義。從而在根源上避免交流的歧義。進(jìn)而提高溝通效率。

4、保證數(shù)據(jù)質(zhì)量

理想的元數(shù)據(jù)做到了對數(shù)據(jù)倉庫結(jié)構(gòu)的描述，倉庫模式試圖，維，度量，層次結(jié)構(gòu)，到處數(shù)據(jù)庫的定義，以及數(shù)據(jù)集市的位置和內(nèi)容。

因此，我們可以很確定的判斷哪些數(shù)據(jù)是肯定準(zhǔn)確無誤的、哪些數(shù)據(jù)是可能有問題的、哪些數(shù)據(jù)是肯定有問題的。

簡單的說就是每一個(gè)字段都應(yīng)該有它的取值范圍、業(yè)務(wù)定義等信息，元數(shù)據(jù)定義好了自然就可以應(yīng)用到數(shù)據(jù)質(zhì)量檢測、評估等方面，進(jìn)而通過數(shù)據(jù)質(zhì)量管理流程真正提高企業(yè)的數(shù)據(jù)質(zhì)量。

5、降低數(shù)據(jù)系統(tǒng)建設(shè)成本

假如元數(shù)據(jù)建設(shè)完備，所以取得信息會更準(zhǔn)確快捷，使數(shù)據(jù)系統(tǒng)建設(shè)不返工或少返工，減少分析工作量，加強(qiáng)各方的統(tǒng)一理解以及溝通效率，進(jìn)而使開發(fā)成本最小。

6、快速分析變更影響

因元數(shù)據(jù)被集中維護(hù)并管理引用關(guān)系，當(dāng)發(fā)生變更時(shí)，可以通過元數(shù)據(jù)管理系統(tǒng)以實(shí)時(shí)分析出其所影響的業(yè)務(wù)功能、應(yīng)用系統(tǒng)、涉及人員、是否涉及監(jiān)管等影響信息。

7、為未來做好準(zhǔn)備

大數(shù)據(jù)、人工智能、數(shù)據(jù)湖、數(shù)據(jù)中臺、商業(yè)智能等企業(yè)的戰(zhàn)略級應(yīng)用系統(tǒng)能夠依賴良好的元數(shù)據(jù)管理而發(fā)揮出其應(yīng)有的效果。

03 數(shù)據(jù)倉庫中元數(shù)據(jù)的組成

元數(shù)據(jù)貫穿整個(gè)數(shù)據(jù)倉庫，根據(jù)情況可以分為三種：業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。

1、業(yè)務(wù)元數(shù)據(jù)

業(yè)務(wù)元數(shù)據(jù)主要描述 ”數(shù)據(jù)”背后的業(yè)務(wù)含義，從業(yè)務(wù)角度描述業(yè)務(wù)領(lǐng)域的相關(guān)概念、關(guān)系——包括業(yè)務(wù)術(shù)語和業(yè)務(wù)規(guī)則。

主題定義：每段 ETL、表背后的歸屬業(yè)務(wù)主題。
業(yè)務(wù)描述：每段代碼實(shí)現(xiàn)的具體業(yè)務(wù)邏輯。
標(biāo)準(zhǔn)指標(biāo)：類似于 BI 中的語義層、數(shù)倉中的一致性事實(shí)；將分析中的指標(biāo)進(jìn)行規(guī)范化。
標(biāo)準(zhǔn)維度：同標(biāo)準(zhǔn)指標(biāo)，對分析的各維度定義實(shí)現(xiàn)規(guī)范化、標(biāo)準(zhǔn)化。

業(yè)務(wù)元數(shù)據(jù)，在實(shí)際業(yè)務(wù)中，需要不斷的進(jìn)行維護(hù)且與業(yè)務(wù)方進(jìn)行溝通確認(rèn)。

2、技術(shù)元數(shù)據(jù)

指技術(shù)細(xì)節(jié)相關(guān)的概念、關(guān)系和規(guī)則，包括對數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方面的描述。以及數(shù)據(jù)倉庫、ETL、前端展現(xiàn)等技術(shù)細(xì)節(jié)的信息。

數(shù)據(jù)倉庫中的技術(shù)元數(shù)據(jù)一般包含以下 4 大系統(tǒng)：數(shù)據(jù)源元數(shù)據(jù)、ETL元數(shù)據(jù)、數(shù)據(jù)倉庫元數(shù)據(jù)、BI 元數(shù)據(jù)。

（1）數(shù)據(jù)源元數(shù)據(jù)

例如：數(shù)據(jù)源的 IP、端口、數(shù)據(jù)庫類型；數(shù)據(jù)獲取的方式；數(shù)據(jù)存儲的結(jié)構(gòu)；原數(shù)據(jù)各列的定義及 key 指對應(yīng)的值。

（2）ETL元數(shù)據(jù)

根據(jù) ETL 目的的不同，可以分為兩類：數(shù)據(jù)清洗元數(shù)據(jù)；數(shù)據(jù)處理元數(shù)據(jù)。

數(shù)據(jù)清洗元數(shù)據(jù)：數(shù)據(jù)清洗，主要目的是為了解決掉臟數(shù)據(jù)及規(guī)范數(shù)據(jù)格式。因此此處元數(shù)據(jù)主要為：各表各列的"正確"數(shù)據(jù)規(guī)則；默認(rèn)數(shù)據(jù)類型的"正確"規(guī)則。
數(shù)據(jù)處理元數(shù)據(jù)：數(shù)據(jù)處理，例如常見的表輸入表輸出；非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化；特殊字段的拆分等。源數(shù)據(jù)到數(shù)倉、數(shù)據(jù)集市層的各類規(guī)則。比如內(nèi)容、清理、數(shù)據(jù)刷新規(guī)則。

（3）數(shù)據(jù)倉庫元數(shù)據(jù)

數(shù)據(jù)倉庫結(jié)構(gòu)的描述，包括倉庫模式、視圖、維、層次結(jié)構(gòu)及數(shù)據(jù)集市的位置和內(nèi)容；

業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式等。

（4）BI 元數(shù)據(jù)

匯總用的算法、包括各類度量和維度定義算法。數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢與報(bào)告。

3、管理元數(shù)據(jù)

管理領(lǐng)域相關(guān)，包括管理流程、人員組織、角色職責(zé)等。

也有很多觀點(diǎn)建議將管理元數(shù)據(jù)拆分融入業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)中。

04 如何建設(shè)數(shù)據(jù)倉庫元數(shù)據(jù)管理？

任何系統(tǒng)的元數(shù)據(jù)管理建設(shè)都是十分艱難的，數(shù)據(jù)倉庫更是如此；但另一方面，這個(gè)建設(shè)過程又是非常重要的。我們暫以 CWM 標(biāo)準(zhǔn)作為數(shù)據(jù)倉庫的元數(shù)據(jù)標(biāo)準(zhǔn)參考，在實(shí)際建設(shè)中進(jìn)行借鑒，這樣看起來更專業(yè)。

CWM （CommonWarehouseMetamodel公共倉庫元模型）是 OMG 組織在數(shù)據(jù)倉庫系統(tǒng)中定義了一套完整的元模型體系結(jié)構(gòu)，用于數(shù)據(jù)倉庫構(gòu)建和應(yīng)用的元數(shù)據(jù)建模。公共倉庫元模型指定的接口,可用于啟用交換倉庫之間元數(shù)據(jù)倉庫和業(yè)務(wù)智能工具、倉庫平臺、應(yīng)用的元數(shù)據(jù)建模和倉庫元數(shù)據(jù)存儲在分布式異構(gòu)環(huán)境 CWM 元模型由一系列子元模型構(gòu)成。
由于 CWM 制定時(shí)間是 2001 年，且過于細(xì)節(jié)深入，因此筆者認(rèn)為其更適合作為開發(fā)參考而非開發(fā)標(biāo)準(zhǔn)。

由于元數(shù)據(jù)包含極廣，我們在建立元數(shù)據(jù)管理系統(tǒng)的時(shí)候，絕對不能盲目追求大而全、一步到位，要堅(jiān)持目標(biāo)驅(qū)動的原則，在實(shí)施的時(shí)候要采取增量式、漸進(jìn)式的建設(shè)原則。具體的建設(shè)步驟如下：

在建設(shè)數(shù)據(jù)倉庫系統(tǒng)的初期，只需確定源系統(tǒng)的元數(shù)據(jù)構(gòu)成和數(shù)倉我們想要實(shí)現(xiàn)的元數(shù)據(jù)內(nèi)容：比如，我們只想通過元數(shù)據(jù)來管理數(shù)據(jù)倉庫中數(shù)據(jù)的轉(zhuǎn)換過程，以及有關(guān)數(shù)據(jù)的抽取路線，以使數(shù)據(jù)倉庫開發(fā)和使用人員明白倉庫中數(shù)據(jù)的整個(gè)歷史過程。
確定源系統(tǒng)和元數(shù)據(jù)構(gòu)成后，先將源系統(tǒng)的元數(shù)據(jù)整理并記錄，可以用文檔記錄；也可以存入關(guān)系型數(shù)據(jù)庫中。
隨著數(shù)據(jù)倉庫系統(tǒng)的建設(shè)，逐步將需要的元數(shù)據(jù)補(bǔ)充錄入——例如 DM 的語義層、ETL 的同步規(guī)則。
數(shù)據(jù)倉庫建設(shè)完成后，對元數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、標(biāo)準(zhǔn)化儲存。

總之，建立元數(shù)據(jù)管理系統(tǒng)一定要堅(jiān)持關(guān)注標(biāo)準(zhǔn)，又不被標(biāo)準(zhǔn)所束縛的原則，建立符合自身目標(biāo)的元數(shù)據(jù)管理系統(tǒng)。

05 元數(shù)據(jù)的應(yīng)用場景

1、影響分析

在開發(fā)中，我們經(jīng)常會遇到以下問題：

如果我要改動某個(gè)表、ETL，會造成怎樣的影響？

如果沒有元數(shù)據(jù)，那我們可能需要遍歷所有的腳本、數(shù)據(jù)。才能得到想要的答案；而如果有成熟的元數(shù)據(jù)管理，那我們就可以直接得到答案，節(jié)省大量時(shí)間。

2、血緣分析

血緣分析是一種技術(shù)手段，用于對數(shù)據(jù)處理過程的全面追蹤，從而找到某個(gè)數(shù)據(jù)對象為起點(diǎn)的所有相關(guān)元數(shù)據(jù)對象以及這些元數(shù)據(jù)對象之間的關(guān)系。元數(shù)據(jù)對象之間的關(guān)系特指表示這些元數(shù)據(jù)對象的數(shù)據(jù)流輸入輸出關(guān)系。

在元數(shù)據(jù)管理系統(tǒng)成型后，我們便可以通過血緣分析來對數(shù)據(jù)倉庫中的數(shù)據(jù)健康、數(shù)據(jù)分布、集中度、數(shù)據(jù)熱度等進(jìn)行分析。

血緣分析是 data science 非常重要的應(yīng)用，未來筆者會單獨(dú)展開介紹。

3、ETL 自動化管理

在數(shù)倉中，很大一部分 ETL 都是枯燥重復(fù)的步驟。

例如源系統(tǒng)-ODS 層的：表輸入——表輸出。

又比如 ODS-DW：SQL 輸入——數(shù)據(jù)清洗——數(shù)據(jù)處理——表輸出。

以上的規(guī)則其實(shí)就屬于一部分元數(shù)據(jù)。

那理論上完全可以實(shí)現(xiàn)，寫好固定腳本，然后通過前端選擇——或 api 接口。

進(jìn)而對重復(fù)的 ETL 實(shí)現(xiàn)自動化管理，降低 ETL 開發(fā)的時(shí)間成本。

4、數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)清洗的邏輯，簡單的說可以分為不同的數(shù)據(jù)類型和指定的特殊處理列。

我們只需指定不同數(shù)據(jù)類型的默認(rèn)清洗規(guī)則，和部分特殊列的特殊處理邏輯，即可實(shí)現(xiàn)智能快捷的數(shù)據(jù)清洗。

數(shù)據(jù)質(zhì)量管理，屬于?數(shù)據(jù)治理?與?元數(shù)據(jù)管理?交集，更偏向數(shù)據(jù)治理方面。未來也會展開更詳細(xì)介紹。

5、數(shù)據(jù)安全管理

在阿里推崇的數(shù)據(jù)中臺中，一切數(shù)據(jù)接口指標(biāo)，都會從數(shù)據(jù)倉庫中出口。因此理論上，我們只需在此處的元數(shù)據(jù)中對管理元數(shù)據(jù)的權(quán)限進(jìn)行配置，即可實(shí)現(xiàn)全公司的數(shù)據(jù)安全管理。

06 常見的元數(shù)據(jù)管理系統(tǒng)

1、apache atlas

Apache Atlas 是 Apache 基金會的孵化項(xiàng)目，是 Hadoop 生態(tài)圈的數(shù)據(jù)治理和元數(shù)據(jù)框架。Atlas 是一套核心基礎(chǔ)治理服務(wù)的集合，有很好的伸縮性和可擴(kuò)展性，能夠滿足企業(yè)對 Hadoop 生態(tài)系統(tǒng)的多樣性需求，并能和企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)集成。

它為 Hadoop 集群提供了包括數(shù)據(jù)分類、集中策略引擎、數(shù)據(jù)血緣、安全和生命周期管理在內(nèi)的元數(shù)據(jù)治理核心能力。?

但 atlas 的缺點(diǎn)是：只能對 hadoop 的元數(shù)據(jù)進(jìn)行管理（雖然也是連的 Mysql ），對傳統(tǒng)數(shù)據(jù)庫的支持力度非常小；同時(shí)血緣分析也只支持特定的數(shù)據(jù)庫。

2、wherehows

Wherehows 定位于元數(shù)據(jù)倉庫,元數(shù)據(jù)存儲于 mysql 中，它從不同的源系統(tǒng)中采集元數(shù)據(jù)，并進(jìn)行標(biāo)準(zhǔn)化和建模，從而作為元數(shù)據(jù)倉庫完成血緣分析。由 linkedin 開源。支持 Docker 部署。

優(yōu)勢：

支持元數(shù)據(jù)歷史版本及對比分析。
一站式的元數(shù)據(jù)分析管理系統(tǒng)。

劣勢：

支持的源系統(tǒng)比較少
開源版本僅支持 Azkaban 調(diào)度任務(wù)的血緣分析。其他調(diào)度任務(wù)僅能獲得元數(shù)據(jù)信息，而沒有血緣信息。
血緣分析較粗，不支持列級血緣。如 HDFS 僅能顯示數(shù)據(jù)文件之間的血緣。
Web UI 僅提供查詢能力，相關(guān)配置需要調(diào)用 API 接口。
缺乏用戶、權(quán)限管理能力。

這個(gè)工具最大的問題是開發(fā)不完善，準(zhǔn)確的說，筆者還未看到有人安裝成功過。

3、其他

元數(shù)據(jù)管理系統(tǒng)的建設(shè)，對整個(gè)公司都有著非常高的需求，因此其他系統(tǒng)會很難找。而收費(fèi)的例如 informatica 等產(chǎn)品，又很難拿到實(shí)際 demo 來測試。

06 總結(jié)

元數(shù)據(jù)管理系統(tǒng)，是對一家公司數(shù)據(jù)更高的考驗(yàn)，想要搭建成功，至少滿足以下條件：

整個(gè)公司數(shù)據(jù)的集成——數(shù)據(jù)倉庫的搭建
整個(gè)公司業(yè)務(wù)流程的完善——"業(yè)務(wù)中臺"的實(shí)現(xiàn)
整個(gè)公司技術(shù)開發(fā)的統(tǒng)一——"技術(shù)中臺"的實(shí)現(xiàn)

如果說數(shù)據(jù)倉庫是數(shù)據(jù)的集成，那元數(shù)據(jù)管理系統(tǒng)就是整個(gè)公司業(yè)務(wù)、技術(shù)、管理的統(tǒng)一。

從這個(gè)角度來看，元數(shù)據(jù)管理系統(tǒng)的定位是高于數(shù)據(jù)倉庫的，這也是筆者雖然標(biāo)題是《數(shù)據(jù)倉庫的“元數(shù)據(jù)管理”》，但花了大量篇幅在介紹元數(shù)據(jù)的原因。

阿里所推崇的數(shù)據(jù)中臺，理念上比較接近數(shù)據(jù)倉庫+元數(shù)據(jù)管理。

但換個(gè)角度，任何業(yè)務(wù)、技術(shù)、數(shù)據(jù)的規(guī)范過程，短時(shí)間內(nèi)都會對實(shí)際工作造成負(fù)面的影響。不是所有人都能理解規(guī)范化所帶來的優(yōu)點(diǎn)，這里也需要一定權(quán)衡和反復(fù)的溝通。

用 ETL 的開發(fā)舉一個(gè)例子。
全部用 SQL 解決——開發(fā)很快，結(jié)果也很少出錯(cuò)。但未來可能要讀一個(gè)上千行的 SQL。
全部用 python 解決——開發(fā)、維護(hù)的代碼門檻較高，且性能相比 SQL 相差何止百倍。
python 來調(diào)度 SQL ——筆者較為推崇的方法，將處理邏輯變?yōu)?python 的函數(shù)、類，但底層邏輯使用 SQL 實(shí)現(xiàn)。從而達(dá)到一個(gè)相對平衡的角度。

因此，筆者認(rèn)為，無論是數(shù)據(jù)人員還是 IT 開發(fā)、測試甚至產(chǎn)品項(xiàng)目業(yè)務(wù)，都應(yīng)有元數(shù)據(jù)的概念，記錄有價(jià)值的元數(shù)據(jù)，利己利人。如果最終決定進(jìn)行元數(shù)據(jù)管理系統(tǒng)的建設(shè)，也會節(jié)約大量時(shí)間。

元數(shù)據(jù)管理在數(shù)據(jù)倉庫的實(shí)踐應(yīng)用