網(wǎng)易:數(shù)據(jù)標(biāo)準(zhǔn)的建立、流程和管理實(shí)踐
在生活中,標(biāo)準(zhǔn)與我們息息相關(guān),吃的食品需要滿足國(guó)家標(biāo)準(zhǔn)才能食用,汽車排放達(dá)標(biāo)才能夠上路行駛,電腦接口得滿足統(tǒng)一的標(biāo)準(zhǔn)才能夠與外設(shè)對(duì)接等等。而在數(shù)據(jù)的世界,數(shù)據(jù)標(biāo)準(zhǔn)也同等重要。我們期望將數(shù)據(jù)標(biāo)準(zhǔn)真正應(yīng)用到實(shí)踐中去,幫助客戶解決資產(chǎn)化不足、數(shù)據(jù)質(zhì)量難以提升、數(shù)據(jù)開(kāi)發(fā)效率低等問(wèn)題,于是網(wǎng)易開(kāi)始了數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)。
本文將基于我們對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的理解,闡述標(biāo)準(zhǔn)的建立并依據(jù)標(biāo)準(zhǔn)的建立內(nèi)容和流程來(lái)設(shè)計(jì)的標(biāo)準(zhǔn)管理產(chǎn)品的介紹以及標(biāo)準(zhǔn)在數(shù)據(jù)治理過(guò)程中的具體實(shí)踐,希望與大家碰撞出新的認(rèn)識(shí)。

數(shù)據(jù)標(biāo)準(zhǔn)的是什么?
在實(shí)際的工作生產(chǎn)中,我們一般會(huì)參照國(guó)家標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)等來(lái)進(jìn)行具體的活動(dòng),來(lái)確保我們生成過(guò)程符合監(jiān)管要求、便于上下游協(xié)同等,于是我們會(huì)見(jiàn)到如下的標(biāo)準(zhǔn)指導(dǎo)文件:

同樣,數(shù)據(jù)標(biāo)準(zhǔn)也會(huì)以文件的形式存在,在除了國(guó)標(biāo)、行標(biāo)定義的標(biāo)準(zhǔn)外,企業(yè)內(nèi)部為了便于各部門(mén)采取同樣的數(shù)據(jù)建設(shè)規(guī)范,通常會(huì)使用文件來(lái)定義數(shù)據(jù)標(biāo)準(zhǔn),以供各部門(mén)達(dá)成統(tǒng)一的共識(shí)。
雖然文件是標(biāo)準(zhǔn)的一種體現(xiàn)形式,但文件是非結(jié)構(gòu)化的,在實(shí)際應(yīng)用中,我們只有理解、提取文件里的內(nèi)容,將標(biāo)準(zhǔn)應(yīng)用于產(chǎn)品設(shè)計(jì)及流程活動(dòng)當(dāng)中去,標(biāo)準(zhǔn)才能起到真正的規(guī)范約束作用。
根據(jù)信通院發(fā)布的《數(shù)據(jù)標(biāo)準(zhǔn)管理實(shí)踐白皮書(shū)》定義:數(shù)據(jù)標(biāo)準(zhǔn)(Data Standards)是指保障數(shù)據(jù)的內(nèi)外部使用和交換的一致性和準(zhǔn)確性的規(guī)范性約束。
毫無(wú)疑問(wèn),這是正確的。但我們還需要將標(biāo)準(zhǔn)踐行,以建設(shè)數(shù)據(jù)中臺(tái)為例,我們知道數(shù)據(jù)中臺(tái)強(qiáng)調(diào)的是資源整合,在數(shù)據(jù)層面就是整合多源異構(gòu)系統(tǒng)中分散在各個(gè)孤島的數(shù)據(jù),形成統(tǒng)一的數(shù)據(jù)服務(wù)能力,這是一項(xiàng)艱巨的任務(wù), 很難通過(guò)互相約定以及默認(rèn)信任相關(guān)方來(lái)保障數(shù)據(jù)的價(jià)值發(fā)掘,形成真正的數(shù)據(jù)資產(chǎn)。
于是,基于此點(diǎn)將數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行擴(kuò)充,一是對(duì)管理范圍的擴(kuò)充,從狹義的數(shù)據(jù)標(biāo)準(zhǔn)(指對(duì)基礎(chǔ)數(shù)據(jù)本身的規(guī)范性約束,如數(shù)據(jù)格式、類型、值域等)擴(kuò)充到整個(gè)數(shù)據(jù)中臺(tái)層面的標(biāo)準(zhǔn)(包含治理各階段的規(guī)范性約束);二是對(duì)管理手段的擴(kuò)充,數(shù)據(jù)標(biāo)準(zhǔn)不再是指一系列的數(shù)據(jù)標(biāo)準(zhǔn)化文檔,而是一套由規(guī)范要求、流程制度、技術(shù)工具共同組成的體系,通過(guò)這套體系完成標(biāo)準(zhǔn)的規(guī)劃、制定、發(fā)布、執(zhí)行、檢查、維護(hù)等行為,來(lái)完成數(shù)據(jù)的標(biāo)準(zhǔn)化以及標(biāo)準(zhǔn)的沉淀。
數(shù)據(jù)標(biāo)準(zhǔn)的價(jià)值
在說(shuō)價(jià)值之前,我們先聊聊讓我們頭疼的問(wèn)題。人人都在談?wù)摂?shù)據(jù)標(biāo)準(zhǔn),但數(shù)據(jù)標(biāo)準(zhǔn)真的被應(yīng)用起來(lái)了么,我們拿著一堆標(biāo)準(zhǔn)文件,期望企業(yè)內(nèi)部宣貫大家要按照這個(gè)標(biāo)準(zhǔn)來(lái),但執(zhí)行的結(jié)果如何?
數(shù)據(jù)集成多源異構(gòu)數(shù)據(jù)時(shí),數(shù)倉(cāng)開(kāi)發(fā)人員真的能快速理解這些數(shù)據(jù)的實(shí)際業(yè)務(wù)含義么?如果理解成本很高,開(kāi)發(fā)人員可能就會(huì)出現(xiàn)認(rèn)識(shí)偏差。
終于數(shù)據(jù)集成進(jìn)來(lái)了,可以開(kāi)始進(jìn)行數(shù)倉(cāng)建設(shè)了,如何保證每一層的數(shù)據(jù)都是符合質(zhì)量要求的,靠開(kāi)發(fā)的個(gè)人素質(zhì)么?比如我們一般在dwd層做數(shù)據(jù)標(biāo)準(zhǔn)化,那么不同主題域的由不同的負(fù)責(zé)人進(jìn)行開(kāi)發(fā),怎么保證標(biāo)準(zhǔn)化的結(jié)果似乎滿足規(guī)范的?dws的數(shù)據(jù)可信度還能保證么?還能被叫做公共模型層么?
再后,數(shù)倉(cāng)開(kāi)發(fā)完成后需要對(duì)外開(kāi)放,我們其實(shí)開(kāi)發(fā)的不光是其數(shù)據(jù),還需要開(kāi)發(fā)它的元數(shù)據(jù)信息,幫助數(shù)據(jù)使用方快速的找到需要的數(shù)據(jù),如果只是把數(shù)據(jù)堆在一起,只有研發(fā)人員自己知道這個(gè)數(shù)據(jù)是什么、在哪、怎么使用,那是不能夠被稱為數(shù)據(jù)資產(chǎn)的。
還有很多問(wèn)題,這里只列舉了些典型。當(dāng)然這些問(wèn)題,是可以解決的,解決的方式就是數(shù)據(jù)標(biāo)準(zhǔn)。解決的的過(guò)程可能需要的時(shí)間比較長(zhǎng),因?yàn)闃?biāo)準(zhǔn)從管理到落地執(zhí)行推進(jìn)并不是一件容易的事,需要從思想上進(jìn)行轉(zhuǎn)變,但我們總要正確的做事。
下面列舉了一些價(jià)值,但在實(shí)際的應(yīng)用過(guò)程能夠發(fā)現(xiàn)更多的可能性。
價(jià)值一:建立統(tǒng)一的數(shù)據(jù)視圖
建立通用的元模型規(guī)范,支持用戶自定義擴(kuò)展,對(duì)多源異構(gòu)數(shù)據(jù)表進(jìn)行信息抽象提取,形成統(tǒng)一的元數(shù)據(jù)層。所有的數(shù)據(jù)開(kāi)發(fā)完成后發(fā)布到數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)的統(tǒng)一的數(shù)據(jù)目錄,通過(guò)不同維度的數(shù)據(jù)目錄進(jìn)行多維篩選,滿足各類用戶的檢索需要,達(dá)到資產(chǎn)的可管、可用、可查的目標(biāo)。
價(jià)值二:建立統(tǒng)一的數(shù)據(jù)認(rèn)知
首先利用標(biāo)準(zhǔn)完成對(duì)多源異構(gòu)數(shù)據(jù)的標(biāo)準(zhǔn)化描述,雖然數(shù)據(jù)在不同系統(tǒng)中的稱呼千奇百怪,但只要進(jìn)入我們的平臺(tái)都將賦予統(tǒng)一的名姓,使得管理方、開(kāi)發(fā)方、使用方建立統(tǒng)一認(rèn)知。對(duì)于倉(cāng)外表將數(shù)據(jù)標(biāo)準(zhǔn)與表字段進(jìn)行關(guān)聯(lián),旨在統(tǒng)一含義以及告知未來(lái)數(shù)據(jù)處理的方向;對(duì)于倉(cāng)內(nèi)表,模型設(shè)計(jì)之初就需要引用標(biāo)準(zhǔn),我們知道將數(shù)據(jù)項(xiàng)進(jìn)行組合即可得到模型,數(shù)據(jù)元即為標(biāo)準(zhǔn)數(shù)據(jù)項(xiàng)池,模型設(shè)計(jì)時(shí)僅需從池子里選取需要的字段進(jìn)行組合即可組裝成想要的模型。
價(jià)值三:建立質(zhì)量稽核體系
現(xiàn)有的質(zhì)量稽核一般是由用戶根據(jù)業(yè)務(wù)需求手動(dòng)設(shè)置,不同人員的認(rèn)知偏差將導(dǎo)致數(shù)據(jù)質(zhì)量難以控制。數(shù)據(jù)標(biāo)準(zhǔn)通過(guò)數(shù)據(jù)元的表示類屬性,根據(jù)其格式、類型等要求自動(dòng)生成質(zhì)量稽核規(guī)則,當(dāng)某張表的字段綁定了數(shù)據(jù)元時(shí),即可根據(jù)數(shù)據(jù)元的質(zhì)量信息要求自動(dòng)生成稽核任務(wù),且保證了源頭定義的一致性。
價(jià)值四:面向未來(lái)的數(shù)據(jù)治理
我們知道,工具的終極目的都是為了降本提效。效率提升是要靠流程規(guī)范的,流程足夠規(guī)范,在某種程度上可實(shí)現(xiàn)流程自動(dòng)流轉(zhuǎn)。因此,未來(lái)的數(shù)據(jù)治理趨勢(shì)應(yīng)當(dāng)側(cè)重于流程自動(dòng)化以及階段智能化,而這兩點(diǎn)都需要數(shù)據(jù)標(biāo)準(zhǔn)的支撐。
階段智能化期望在流程各階段提供智能識(shí)別能力,比如字段的真實(shí)含義(掛載數(shù)據(jù)標(biāo)準(zhǔn))、資源所屬分類、字段枚舉值等,減少人工參與。從短期來(lái)看,用戶從處理者變?yōu)閷徍苏撸瑥拈L(zhǎng)期來(lái)看,用戶干預(yù)的行為反哺識(shí)別模型,增加識(shí)別準(zhǔn)確性,可降低人力成本;
流程自動(dòng)化依賴階段智能化以及人工干預(yù)的結(jié)果,將各階段進(jìn)行串聯(lián),上下游盡可能完美對(duì)接,當(dāng)上游階段達(dá)到下游準(zhǔn)入條件時(shí),可自動(dòng)觸發(fā)流程運(yùn)作,當(dāng)然該過(guò)程也需要統(tǒng)一上下游語(yǔ)言(即數(shù)據(jù)標(biāo)準(zhǔn)),在實(shí)際實(shí)踐中,可通過(guò)試運(yùn)行進(jìn)行驗(yàn)證。
標(biāo)準(zhǔn)的價(jià)值還有很多,限于篇幅不過(guò)多贅述,大家可以不斷發(fā)現(xiàn)標(biāo)準(zhǔn)的應(yīng)用場(chǎng)景。說(shuō)完標(biāo)準(zhǔn)的價(jià)值了,那么我們?cè)撊绾谓?shù)據(jù)標(biāo)準(zhǔn)呢?
如何建立數(shù)據(jù)標(biāo)準(zhǔn)?
在早期的業(yè)務(wù)發(fā)展過(guò)程中,企業(yè)為了解決當(dāng)下的業(yè)務(wù)問(wèn)題,各業(yè)務(wù)條線已建設(shè)自己個(gè)性化的業(yè)務(wù)系統(tǒng),在建設(shè)的過(guò)程中為了保證內(nèi)部通信,或多或少都已存在局部的數(shù)據(jù)標(biāo)準(zhǔn)。因此,建設(shè)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)很大程度上是對(duì)局部標(biāo)準(zhǔn)進(jìn)行收口,一般來(lái)說(shuō),可收集現(xiàn)行的國(guó)家標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn),將現(xiàn)有標(biāo)準(zhǔn)與國(guó)標(biāo)或行標(biāo)進(jìn)行對(duì)標(biāo),此過(guò)程一是可以滿足監(jiān)管需要,二是可大大節(jié)省標(biāo)準(zhǔn)制定的人力;另一方面則是考慮所在行業(yè)的特點(diǎn)并結(jié)合企業(yè)的實(shí)際需要,逐步構(gòu)建標(biāo)準(zhǔn)進(jìn)行推行。
具體可參考數(shù)據(jù)標(biāo)準(zhǔn)的建立的6個(gè)步驟,分別是:數(shù)據(jù)標(biāo)準(zhǔn)規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)制定、數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布、數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行、數(shù)據(jù)標(biāo)準(zhǔn)檢查、數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)。
3.1 數(shù)據(jù)標(biāo)準(zhǔn)規(guī)劃
標(biāo)準(zhǔn)的規(guī)劃首先需對(duì)企業(yè)業(yè)務(wù)和數(shù)據(jù)進(jìn)行調(diào)研和分析,結(jié)合實(shí)際的數(shù)據(jù)標(biāo)準(zhǔn)需求,明確數(shù)據(jù)標(biāo)準(zhǔn)的范圍。再根據(jù)實(shí)際情況的不同,逐步推進(jìn)。
3.1.1 收集現(xiàn)行標(biāo)準(zhǔn)
可從業(yè)務(wù)流程出發(fā),圈定參與業(yè)務(wù)流程的業(yè)務(wù)實(shí)體,通用的業(yè)務(wù)實(shí)體如人,可收集對(duì)應(yīng)現(xiàn)行的國(guó)家標(biāo)準(zhǔn),如對(duì)于公民身份證號(hào)碼應(yīng)當(dāng)遵循強(qiáng)制性標(biāo)準(zhǔn)GB 11643 ,對(duì)于性別的代碼應(yīng)當(dāng)參考推薦性標(biāo)準(zhǔn)GB/T 2261.1的規(guī)定,行政區(qū)劃應(yīng)當(dāng)參考GB/T 2260的規(guī)定等。具備行業(yè)屬性的業(yè)務(wù)實(shí)體如商業(yè)銀行擔(dān)保物,可參考JR/T 0170.1以及JR/T 0170.2的規(guī)定等。
3.1.2 從局部標(biāo)準(zhǔn)到全局標(biāo)準(zhǔn)?
對(duì)于企業(yè)各業(yè)務(wù)條線(部門(mén))已建立的局部標(biāo)準(zhǔn)且不適用于引用現(xiàn)行標(biāo)準(zhǔn)或不存在于現(xiàn)行標(biāo)準(zhǔn)的需要進(jìn)行收集,對(duì)同一業(yè)務(wù)含義但不同標(biāo)準(zhǔn)描述的項(xiàng)進(jìn)行評(píng)審,在企業(yè)內(nèi)部達(dá)成一致,得到最終統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。
此過(guò)程可包含基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一、參照類標(biāo)準(zhǔn)統(tǒng)一、指標(biāo)類數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一。
3.1.3 發(fā)現(xiàn)更多數(shù)據(jù)標(biāo)準(zhǔn)
發(fā)現(xiàn)更多標(biāo)準(zhǔn)主要應(yīng)用于以下情況,一是局部標(biāo)準(zhǔn)不明確也無(wú)現(xiàn)行標(biāo)準(zhǔn)適用時(shí),二是企業(yè)各業(yè)務(wù)條線垂直系統(tǒng)較多,數(shù)據(jù)體量較大,缺乏足夠的人力及技術(shù)手段,但從總體戰(zhàn)略的角度期望制定標(biāo)準(zhǔn)時(shí)。應(yīng)對(duì)這種情況可依賴數(shù)據(jù)標(biāo)準(zhǔn)管理平臺(tái)(第3節(jié)將詳細(xì)介紹)進(jìn)行標(biāo)準(zhǔn)的識(shí)別及拾取。
標(biāo)準(zhǔn)的識(shí)別及拾取一般存在兩種方式:
第一種有明確制定某項(xiàng)標(biāo)準(zhǔn)的需求,則通過(guò)定義數(shù)據(jù)元概念(第2.2節(jié)詳細(xì)介紹 ),確定該項(xiàng)數(shù)據(jù)標(biāo)準(zhǔn)描述的對(duì)象類及特性,再通過(guò)關(guān)鍵詞掃描及智能識(shí)別技術(shù),掃描存量數(shù)據(jù),識(shí)別與該數(shù)據(jù)元概念一致的數(shù)據(jù)項(xiàng)集合,對(duì)該集合進(jìn)行探查獲取字段類型分布、長(zhǎng)度范圍、值域分布等,從而構(gòu)建數(shù)據(jù)元的表示描述,形成完整的數(shù)據(jù)標(biāo)準(zhǔn)。
第二種是暫無(wú)明確制定某項(xiàng)標(biāo)準(zhǔn)的需求,去探索是否需要對(duì)某些數(shù)據(jù)項(xiàng)制定標(biāo)準(zhǔn)。系統(tǒng)對(duì)存量數(shù)據(jù)進(jìn)行掃描,遍歷所選擇的數(shù)據(jù)源類型中的所有字段名,提取達(dá)到重復(fù)閾值的字段名,對(duì)其制定數(shù)據(jù)標(biāo)準(zhǔn)。
3.2 數(shù)據(jù)標(biāo)準(zhǔn)制定
3.2.1 元數(shù)據(jù)標(biāo)準(zhǔn)
元數(shù)據(jù)標(biāo)準(zhǔn)主要規(guī)范了平臺(tái)對(duì)于各類元數(shù)據(jù)及資產(chǎn)的表示方式和組織方式。
3.2.1.1 元模型的制定
數(shù)據(jù)中臺(tái)是企業(yè)數(shù)字化轉(zhuǎn)型的基礎(chǔ)和中樞系統(tǒng),將企業(yè)全域海量、多源、異構(gòu)的數(shù)據(jù)整合資產(chǎn)化,但多源異構(gòu)數(shù)據(jù)差異化明顯,如何保證數(shù)據(jù)管理者、使用者、開(kāi)發(fā)者對(duì)數(shù)據(jù)具備統(tǒng)一的認(rèn)知是亟待解決的問(wèn)題。良好元模型設(shè)計(jì),主旨在于屏蔽底層多源異構(gòu)系統(tǒng)的復(fù)雜度,用統(tǒng)一的語(yǔ)言來(lái)描述來(lái)自不同應(yīng)用系統(tǒng)、存儲(chǔ)在不同種類數(shù)據(jù)庫(kù)的各類數(shù)據(jù)。
我們知道元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),而元模型則是關(guān)于模型的數(shù)據(jù)描述,根據(jù)OMG(對(duì)象管理組織)提出的四層元模型結(jié)構(gòu),可以清晰的表達(dá)出四層的關(guān)系:

可以看出,元數(shù)據(jù)是個(gè)相對(duì)的概念,元模型即為元數(shù)據(jù)的元數(shù)據(jù),為了更方便大家理解,這里提供一個(gè)實(shí)例解釋:

元模型不僅限于表元模型、字段元模型,還包含指標(biāo)元模型、標(biāo)簽元模型等,雖然所描述的元數(shù)據(jù)種類不同,但管理方法上都是一致的,在實(shí)踐的過(guò)程中,可全部納入數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行管理,也可在對(duì)應(yīng)的子系統(tǒng)中各自維護(hù)。
3.2.1.2 命名及編碼規(guī)則制定
命名規(guī)則主要用于規(guī)范表名、字段名、任務(wù)名稱、指標(biāo)名稱、標(biāo)簽名稱等,指定某個(gè)名稱應(yīng)當(dāng)使用哪些命名要素組成以及以何種排列順序組成。編碼規(guī)則主要用戶資產(chǎn)編碼、數(shù)據(jù)元內(nèi)部標(biāo)識(shí)符、標(biāo)簽編碼、指標(biāo)編碼等,指定某個(gè)編碼應(yīng)當(dāng)使用何種編碼方式。
因此需要指定命名及編碼要素范圍,一是選取平臺(tái)已存在的枚舉值,如數(shù)據(jù)分層、主題域或其他已存在的分類枚舉;二是用戶可自定義常量、自定義枚舉值;三是平臺(tái)提供的可變位序列。通過(guò)上述的命名要素,進(jìn)行排序組合,形成命名及編碼規(guī)則。
以數(shù)據(jù)元為例子:
第一種編碼方式可以為“指定標(biāo)識(shí)(常量)+7位自增序列”,可以編碼為DE0000001;
第二種編碼方式可以按照所在分類進(jìn)行統(tǒng)一編碼,類似于“一級(jí)分類編碼+二級(jí)分類編碼+三位自增序列”,比如公民身份號(hào)碼數(shù)據(jù)元?dú)w屬分了為”人員類(01)/信息標(biāo)識(shí)類(001)“,那么可以編碼為01001001,其他以此類推。
3.2.1.3 數(shù)據(jù)目錄規(guī)范制定
數(shù)據(jù)目錄提供靈活的數(shù)據(jù)組織方式,比如數(shù)倉(cāng)開(kāi)發(fā)人員使用數(shù)據(jù)分層、主題域來(lái)組織數(shù)據(jù),對(duì)于數(shù)據(jù)管理者,可能更關(guān)注于資產(chǎn)盤(pán)點(diǎn),希望能夠按照來(lái)源系統(tǒng)、管理部門(mén)以及安全分類等多種方案進(jìn)行管理。
我們?cè)谥贫〝?shù)據(jù)目錄時(shí),需要分析用戶的需求場(chǎng)景,在不同場(chǎng)景下為用戶提供更合適的數(shù)據(jù)視角,便于用戶取數(shù)用數(shù)。一般來(lái)說(shuō),會(huì)先提供數(shù)據(jù)來(lái)源分類、數(shù)倉(cāng)設(shè)計(jì)分類、數(shù)據(jù)安全分類,分類的描述信息至少要包含分類名稱、英文名稱、內(nèi)部編碼,以便于在平臺(tái)其他模塊的應(yīng)用。且分類方案支持用戶在后期的管理過(guò)程中進(jìn)行自定義擴(kuò)充。
3.2.2 基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)
3.2.2.1 詞根的制定
詞根是為了標(biāo)準(zhǔn)的命名更加規(guī)范統(tǒng)一,最終將被應(yīng)用到字段命名或其他資產(chǎn)的命名上。
企業(yè)可根據(jù)自身積累,對(duì)詞根進(jìn)行收集,形成自己的詞根庫(kù),在制定數(shù)據(jù)元及字典時(shí),可根據(jù)輸入的中文名稱自動(dòng)根據(jù)詞根翻譯英文名稱。
一個(gè)完整的詞根信息包含英文簡(jiǎn)稱、英文全稱、中文全稱三個(gè)部分,其中文全稱支持多個(gè),保證用戶在使用詞根翻譯時(shí)相同含義字段能夠獲取相同的英文簡(jiǎn)稱。另外,為了便于統(tǒng)一管理,需對(duì)詞根的編碼及詞根來(lái)源進(jìn)行指定。
3.2.2.2 數(shù)據(jù)元的制定
數(shù)據(jù)元是基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)的具象化體現(xiàn),也是數(shù)據(jù)標(biāo)準(zhǔn)管理的核心。根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)劃,制定數(shù)據(jù)元第一種方式是對(duì)現(xiàn)行標(biāo)準(zhǔn)進(jìn)行結(jié)構(gòu)化提取,使用平臺(tái)進(jìn)行管理,第二種則是根據(jù)自身需要建立企業(yè)自己的專業(yè)數(shù)據(jù)元。
完整的數(shù)據(jù)元應(yīng)當(dāng)由三部分組成,對(duì)象類、特性及表示,如下圖所示,只有當(dāng)對(duì)象類及其特性綁定了表示時(shí),才能由數(shù)據(jù)元概念轉(zhuǎn)變?yōu)檎嬲臄?shù)據(jù)元。
對(duì)象類:現(xiàn)實(shí)世界中的想法、抽象概念或事物的集合,有清楚的邊界和含義,并且特性和其行為遵循同樣的規(guī)則而能夠加以標(biāo)識(shí);,如:車、人、訂單等;
特性:對(duì)象類的所有個(gè)體所共有的某種性質(zhì),如顏色、性別、年齡、價(jià)格等;
表示:值域、數(shù)據(jù)類型的組合,必要時(shí)也包括度量單位或字符集,如:格式、值域、長(zhǎng)度等;
其中,值域可通過(guò)名稱或碼值直接給出、也可通過(guò)參考資料給出、也可通過(guò)綁定數(shù)據(jù)字典給出。

因此完整的數(shù)據(jù)元名稱應(yīng)當(dāng)為:“對(duì)象類詞+特性詞+表示詞”,如人性別代碼。
在理解了數(shù)據(jù)元的含義后,如何去制定數(shù)據(jù)元呢?我們可參考GB/T 18391標(biāo)準(zhǔn)的第1~6部分,有興趣的朋友可以去了解下,這里結(jié)合我們的理解給出數(shù)據(jù)元的結(jié)構(gòu)化描述。
在制定數(shù)據(jù)元時(shí),我們通常會(huì)從6個(gè)方面描述數(shù)據(jù)元的基本屬性:標(biāo)識(shí)類屬性、定義類屬性、關(guān)系類屬性、表示類屬性、管理類屬性、附加類屬性,如下表,這是一個(gè)綜合的較為通用的數(shù)據(jù)元描述模板,在應(yīng)用過(guò)程中需要根據(jù)企業(yè)實(shí)際需要,進(jìn)行刪減補(bǔ)全。

3.2.2.3 數(shù)據(jù)字典的制定
數(shù)據(jù)字典是參照類數(shù)據(jù)標(biāo)準(zhǔn)的具象體現(xiàn),一般分為原始字典及標(biāo)準(zhǔn)字典,原始字典指源系統(tǒng)或生產(chǎn)系統(tǒng)中某個(gè)原始項(xiàng)數(shù)據(jù)內(nèi)容的枚舉集合,標(biāo)準(zhǔn)數(shù)據(jù)字典一般用于作為數(shù)據(jù)元值域而存在,在數(shù)據(jù)處理過(guò)程中需要完成原始字典到標(biāo)準(zhǔn)字典的映射,完成字典標(biāo)準(zhǔn)化工作。
數(shù)據(jù)字典核心是其碼值列表,碼值列表至少要包含兩項(xiàng)信息:代碼、代碼描述,必要時(shí)可增加說(shuō)明字段進(jìn)行補(bǔ)充。

獲得碼表的方式:
原始字典:數(shù)據(jù)庫(kù)逆向采集、元數(shù)據(jù)注冊(cè)時(shí)填寫(xiě)字段枚舉值、數(shù)據(jù)探查時(shí)值域分布計(jì)算、手動(dòng)錄入;
標(biāo)準(zhǔn)字典:現(xiàn)行標(biāo)準(zhǔn)的結(jié)構(gòu)化提取、標(biāo)準(zhǔn)識(shí)別結(jié)果分析、手動(dòng)錄入。
3.2.2.4 數(shù)據(jù)項(xiàng)分類規(guī)范制定
數(shù)據(jù)項(xiàng)分類與數(shù)據(jù)目錄類似,也是為了滿足在不同場(chǎng)景下,對(duì)不同對(duì)象的分類需求。數(shù)據(jù)項(xiàng)分類即是對(duì)字段級(jí)進(jìn)行分類。
在制定數(shù)據(jù)目錄時(shí),需要分析用戶的需求場(chǎng)景,在不同場(chǎng)景下為用戶提供不同的分類方案。如從管理角度,可以按照描述對(duì)象、來(lái)源文件進(jìn)行劃分;從數(shù)據(jù)安全角度可以按照敏感級(jí)別、安全級(jí)別進(jìn)行劃分等,且分類方案支持用戶在后期的管理過(guò)程中進(jìn)行自定義擴(kuò)充。
在實(shí)際應(yīng)用的過(guò)程時(shí),會(huì)將具體的分類值關(guān)聯(lián)數(shù)據(jù)元,再由數(shù)據(jù)元關(guān)聯(lián)字段,做到快速分類的目的。
3.2.3 技術(shù)標(biāo)準(zhǔn)制定
3.2.3.1 數(shù)據(jù)類型映射關(guān)系
主要記錄不同數(shù)據(jù)源間數(shù)據(jù)類型的映射關(guān)系,便于在數(shù)據(jù)傳輸、分發(fā)等場(chǎng)景下快速建表,提升數(shù)據(jù)傳輸任務(wù)的配置效率。
3.2.3.2 異構(gòu)數(shù)據(jù)開(kāi)發(fā)模板制定
主要管理不同數(shù)據(jù)源的DDL語(yǔ)句模板,包含新增、刪除、更新等,協(xié)助數(shù)據(jù)開(kāi)發(fā)人員選擇對(duì)應(yīng)數(shù)據(jù)庫(kù)節(jié)點(diǎn)時(shí)快速根據(jù)模板生成語(yǔ)句。
3.3 數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布
一般數(shù)據(jù)標(biāo)準(zhǔn)建議遵循草案、試用、標(biāo)準(zhǔn)、廢止的生命周期流轉(zhuǎn),但可根據(jù)實(shí)際情況進(jìn)行簡(jiǎn)化。對(duì)于數(shù)據(jù)元、數(shù)據(jù)字典盡可能遵循此生命周期管理,對(duì)于詞根、數(shù)據(jù)分類、元模型等可簡(jiǎn)化流程,可采取草案、上線、下線的生命周期管理。
數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布是在標(biāo)準(zhǔn)制定完成進(jìn)入開(kāi)發(fā)完成態(tài)后,可提交發(fā)布審核,審核通過(guò)后將應(yīng)用于整個(gè)系統(tǒng),若后續(xù)需要進(jìn)行修訂,則需修訂完成后重新發(fā)布最新版本。
另外,發(fā)布前需查看版本變化以及影響范圍,評(píng)估影響后再進(jìn)行發(fā)布生效,并通知相關(guān)方進(jìn)行調(diào)整。
3.4 數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行
數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行主要分兩塊,第一塊是正在進(jìn)行數(shù)據(jù)治理的各個(gè)階段進(jìn)行應(yīng)用,第二塊是新建系統(tǒng)和歷史存在的業(yè)務(wù)系統(tǒng)的應(yīng)用。
數(shù)據(jù)治理過(guò)程的應(yīng)用主要在(涉及數(shù)據(jù)標(biāo)準(zhǔn)與各個(gè)模塊的對(duì)接,將在第4節(jié)詳細(xì)介紹):
元數(shù)據(jù):需要從業(yè)務(wù)屬性、技術(shù)屬性、管理屬性三個(gè)方面對(duì)元數(shù)據(jù)進(jìn)行描述,需要定義具體的描述項(xiàng)
數(shù)據(jù)資產(chǎn):需要對(duì)各類資產(chǎn)進(jìn)行盤(pán)點(diǎn),需要定義資產(chǎn)編碼及命名規(guī)范、定義分類依據(jù)、上線標(biāo)準(zhǔn)
數(shù)據(jù)質(zhì)量:需要建立稽核規(guī)則,需要構(gòu)建質(zhì)量檢測(cè)體系
數(shù)據(jù)安全:需要對(duì)數(shù)據(jù)進(jìn)行分級(jí)分類,需要定義數(shù)據(jù)項(xiàng)分類依據(jù)、敏感信息的識(shí)別依據(jù)
模型設(shè)計(jì):需要定義數(shù)據(jù)模型、數(shù)據(jù)指標(biāo)、維度度量等數(shù)據(jù)的標(biāo)準(zhǔn)
數(shù)據(jù)傳輸:需要對(duì)接不同種數(shù)據(jù)源、來(lái)源系統(tǒng),需要制定不同系統(tǒng)、數(shù)據(jù)源間的交換依據(jù)
數(shù)據(jù)開(kāi)發(fā):需要定義數(shù)據(jù)處理依據(jù),字段及字典映射邏輯、各類數(shù)據(jù)源SQL模板
新建的業(yè)務(wù)系統(tǒng)
必須嚴(yán)格按照發(fā)布的標(biāo)準(zhǔn)進(jìn)行設(shè)計(jì),通過(guò)使用平臺(tái)提供的模型設(shè)計(jì)產(chǎn)品進(jìn)行管控
正在運(yùn)行的系統(tǒng)
可以通過(guò)探查、智能識(shí)別的手段建立映射關(guān)系
3.5 數(shù)據(jù)標(biāo)準(zhǔn)檢查
數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行后,需要進(jìn)行落標(biāo)檢查,確認(rèn)標(biāo)準(zhǔn)執(zhí)行的情況以及效果。
可參考相關(guān)指標(biāo),從標(biāo)準(zhǔn)側(cè)進(jìn)行標(biāo)準(zhǔn)的引用統(tǒng)計(jì)、標(biāo)準(zhǔn)化率統(tǒng)計(jì),從質(zhì)量側(cè)統(tǒng)計(jì)表及字段質(zhì)量評(píng)分,多角度去判斷指標(biāo)執(zhí)行情況及應(yīng)用效果。
3.6 數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)
維護(hù)數(shù)據(jù)標(biāo)準(zhǔn)
在實(shí)際執(zhí)行的過(guò)程中,可能現(xiàn)行標(biāo)準(zhǔn)發(fā)生修訂,企業(yè)自身業(yè)務(wù)規(guī)則發(fā)生變化,都需要對(duì)已發(fā)布的標(biāo)準(zhǔn)進(jìn)行修訂
修訂要嚴(yán)格按照生命周期流轉(zhuǎn)要求,記錄版本變化,評(píng)估變更影響,在進(jìn)行重新發(fā)布生效
沉淀數(shù)據(jù)標(biāo)準(zhǔn)
隨著標(biāo)準(zhǔn)的累計(jì),我們需要沉淀所在行業(yè)的標(biāo)準(zhǔn)
通過(guò)標(biāo)準(zhǔn)沉淀,建立標(biāo)準(zhǔn)資產(chǎn),形成行業(yè)最佳實(shí)踐,提升企業(yè)在所在行業(yè)的地位
數(shù)據(jù)標(biāo)準(zhǔn)產(chǎn)品介紹
在了解了如何建立數(shù)據(jù)標(biāo)準(zhǔn)后,我們可以著手開(kāi)始干了。但工欲善其事必先利其器,一個(gè)合適的數(shù)據(jù)標(biāo)準(zhǔn)管理工具可以幫助我們更方便、更高效的制定和管理數(shù)據(jù)標(biāo)準(zhǔn)。
因此我們基于數(shù)據(jù)標(biāo)準(zhǔn)管理流程、管理內(nèi)容的分析,并充分考慮不同行業(yè)對(duì)標(biāo)準(zhǔn)管理需求的不一致性,對(duì)數(shù)據(jù)標(biāo)準(zhǔn)管理產(chǎn)品進(jìn)行功能設(shè)計(jì),本章將詳細(xì)介紹產(chǎn)品的各個(gè)模塊。
4.1 產(chǎn)品總體架構(gòu)

4.2 產(chǎn)品功能模塊
4.2.1 數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)計(jì)首頁(yè)
主要包含標(biāo)準(zhǔn)資產(chǎn)統(tǒng)計(jì)、標(biāo)準(zhǔn)化情況統(tǒng)計(jì)、標(biāo)準(zhǔn)流程統(tǒng)計(jì),全方位評(píng)估標(biāo)準(zhǔn)建設(shè)及使用情況。

4.2.2 數(shù)據(jù)標(biāo)準(zhǔn)文件管理
此模塊用于管理當(dāng)前平臺(tái)參照的各類標(biāo)準(zhǔn)文件,并與已結(jié)構(gòu)化的標(biāo)準(zhǔn)建立聯(lián)系,保證標(biāo)準(zhǔn)來(lái)源的可信。另外,針對(duì)已經(jīng)做過(guò)結(jié)構(gòu)化標(biāo)準(zhǔn)提取的文件,將作為平臺(tái)預(yù)置的標(biāo)準(zhǔn)模板,供用戶使用。

4.2.2.1 數(shù)據(jù)元管理
數(shù)據(jù)元管理是標(biāo)準(zhǔn)管理核心內(nèi)容,支持表單及批量導(dǎo)入的方式錄入數(shù)據(jù)元,按照標(biāo)準(zhǔn)生命周期草案、試用、標(biāo)準(zhǔn)、廢止對(duì)數(shù)據(jù)元進(jìn)行管理,支持?jǐn)?shù)據(jù)元的批量導(dǎo)出,滿足不同場(chǎng)景下查看數(shù)據(jù)元的需求。定義時(shí)也將數(shù)據(jù)元與稽核規(guī)則進(jìn)行綁定,為質(zhì)量檢測(cè)提供依據(jù)。
另外,支持?jǐn)?shù)據(jù)元不同版本之間的比對(duì),獲取版本差異,評(píng)估標(biāo)準(zhǔn)變更存在的風(fēng)險(xiǎn)。


4.2.2.2 數(shù)據(jù)字典管理
數(shù)據(jù)字典管理內(nèi)容包含原始字典及標(biāo)準(zhǔn)字典,可以認(rèn)為原始字典是原始數(shù)據(jù)項(xiàng)的值域分布, 標(biāo)準(zhǔn)字典是標(biāo)準(zhǔn)數(shù)據(jù)項(xiàng)的值域分布。原始字典可主動(dòng)錄入,也可通過(guò)數(shù)據(jù)探查的值域分布進(jìn)行生成;標(biāo)準(zhǔn)字典滿足與數(shù)據(jù)元同樣的生命周期管理,也支持批量導(dǎo)入導(dǎo)出操作。
在后續(xù)的實(shí)現(xiàn)中,將完成從平臺(tái)已有數(shù)據(jù)庫(kù)中存在的字典表進(jìn)行拾取,同時(shí)維護(hù)原始字典與標(biāo)準(zhǔn)字典之間的關(guān)系,方便用戶在進(jìn)行數(shù)據(jù)處理時(shí)快速進(jìn)行字典對(duì)標(biāo)。

4.2.2.3 詞根管理
詞根管理旨在定義英文名稱、英文簡(jiǎn)稱、中文名稱間的映射關(guān)系,為標(biāo)準(zhǔn)的命名提供規(guī)范的輸入。用戶在定義數(shù)據(jù)元、數(shù)據(jù)字典或模型字段時(shí),將對(duì)輸入的中文名稱進(jìn)行拆詞,依據(jù)詞根生成英文名稱。
除了已支持的詞根表單錄入外,后續(xù)將支持詞根的批量導(dǎo)入,幫助用戶快速導(dǎo)入已制定好的詞根列表。

4.2.2.4 數(shù)據(jù)項(xiàng)分類管理
數(shù)據(jù)項(xiàng)分類管理提供了三個(gè)層級(jí)目錄類型,第一種管理的是分類目錄,用戶對(duì)分類方案進(jìn)行歸類;第二種管理的是分類方案,它是基于某種數(shù)據(jù)項(xiàng)分類依據(jù)(如描述對(duì)象)提供的一種分類方式;第三種是分類值,它歸屬于分類方案,在這一層將與真正的數(shù)據(jù)元進(jìn)行掛載。
因此數(shù)據(jù)項(xiàng)分類支持分類的基本信息管理,也支持對(duì)數(shù)據(jù)元批量進(jìn)行關(guān)聯(lián)以及解除關(guān)聯(lián)。

4.2.3 元數(shù)據(jù)標(biāo)準(zhǔn)管理
4.2.3.1 命名及編碼規(guī)則管理
命名規(guī)則及編碼管理要能夠?qū)⑵脚_(tái)中已有的可作為命名要素的枚舉值進(jìn)行收集管理,支持用戶添加自定義元素,用戶可通過(guò)點(diǎn)擊或拖拽的方式將元素進(jìn)行組合形成命名規(guī)則及編碼規(guī)則。

4.2.3.2 數(shù)據(jù)目錄管理
數(shù)據(jù)目錄管理與數(shù)據(jù)項(xiàng)分類管理類似,但分類的對(duì)象不同,此處分類主要是對(duì)平臺(tái)各類資產(chǎn)的編目,提供多種視角、多種方案對(duì)表、指標(biāo)、標(biāo)簽等進(jìn)行分類管理,應(yīng)用于統(tǒng)一的資產(chǎn)目錄進(jìn)行展示,讓資產(chǎn)可理解、可識(shí)別、易查找。

4.2.4 技術(shù)標(biāo)準(zhǔn)管理
4.2.4.1 數(shù)據(jù)類型映射關(guān)系管理
主要管理不同數(shù)據(jù)源間數(shù)據(jù)類型的映射關(guān)系,如下表示例,隨著數(shù)據(jù)源種類的增加,此模塊支持多數(shù)據(jù)源類型交叉映射。

4.2.4.2 DDL模板管理
主要管理不同數(shù)據(jù)源的DDL語(yǔ)句模板,包含新增、刪除、更新等,在模型設(shè)計(jì)時(shí)或離線開(kāi)發(fā)時(shí)進(jìn)行引用,根據(jù)選中的信息,替換模板中的參數(shù)。以mysql建表為例:
CREATE?TABLE?IF?NOT?EXISTS?${table_name}(???${filed_list}???PRIMARY?KEY?(?${pk_filed_name}?))ENGINE=InnoDB DEFAULT CHARSET=utf8;
4.2.5 標(biāo)準(zhǔn)流程管理
4.2.5.1 標(biāo)準(zhǔn)發(fā)現(xiàn)
根據(jù)標(biāo)準(zhǔn)制定流程,平臺(tái)提供數(shù)據(jù)庫(kù)拾取能力,對(duì)標(biāo)準(zhǔn)進(jìn)行識(shí)別,根據(jù)識(shí)別結(jié)果來(lái)得出結(jié)論 ,即完整的數(shù)據(jù)元定義。下面是根據(jù)數(shù)據(jù)元概念進(jìn)行識(shí)別的頁(yè)面參考。

4.2.5.2 審核管理
審核管理主要是對(duì)標(biāo)準(zhǔn)生命周期流轉(zhuǎn)的申請(qǐng)以及標(biāo)準(zhǔn)的發(fā)布申請(qǐng)進(jìn)行操作,審核人員可根據(jù)實(shí)際情況評(píng)估,選擇通過(guò)或拒絕。


4.2.5.3 標(biāo)準(zhǔn)發(fā)布
標(biāo)準(zhǔn)發(fā)布采取整包發(fā)布的方式,若將同一批次的數(shù)據(jù)元列表發(fā)布一個(gè)大版本,保證平臺(tái)的標(biāo)準(zhǔn)參考基線。需要支持查看當(dāng)前更新的內(nèi)容,提交發(fā)布申請(qǐng),比對(duì)版本差異,支持查看發(fā)布?xì)v史等。

4.2.6 標(biāo)準(zhǔn)配置
標(biāo)準(zhǔn)配置主要是對(duì)數(shù)據(jù)元及數(shù)據(jù)字典的元模型進(jìn)行配置管理,我們提供了較為全面的數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu)化表示方法,但根據(jù)不同行業(yè)對(duì)標(biāo)準(zhǔn)描述的需要,可能并不需要這么多描述項(xiàng),因此提供數(shù)據(jù)標(biāo)準(zhǔn)的元模型配置,用戶可根據(jù)實(shí)際情況進(jìn)行啟用、停用或新增標(biāo)準(zhǔn)的描述項(xiàng)。
4.2.6.1 數(shù)據(jù)元模板配置

4.2.6.2 數(shù)據(jù)字典模板配置

數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)中臺(tái)的結(jié)合實(shí)踐
在具體實(shí)施過(guò)程中,我們期望按照“需求-設(shè)計(jì)-開(kāi)發(fā)-交付”流程進(jìn)行建設(shè)。在需求設(shè)計(jì)階段,應(yīng)對(duì)數(shù)據(jù)現(xiàn)狀進(jìn)行摸排,確定治理范圍以及標(biāo)準(zhǔn)的制定范圍。從而在后續(xù)的設(shè)計(jì)中能夠規(guī)范指標(biāo)及模型設(shè)計(jì),從源頭上開(kāi)始控制元數(shù)據(jù)及數(shù)據(jù)的質(zhì)量,指導(dǎo)開(kāi)發(fā)過(guò)程的具體實(shí)施。
數(shù)據(jù)標(biāo)準(zhǔn)在治理流程中的位置以及跟各模塊產(chǎn)生的交互。

5.1 數(shù)據(jù)傳輸
數(shù)據(jù)傳輸承擔(dān)著將多源異構(gòu)數(shù)據(jù)集成到大數(shù)據(jù)平臺(tái)以及將平臺(tái)數(shù)據(jù)分發(fā)到其他庫(kù)的能力,當(dāng)目標(biāo)庫(kù)無(wú)對(duì)應(yīng)表時(shí),需要根據(jù)來(lái)源表進(jìn)行建表,但不同數(shù)據(jù)源間的類型差異,需要人工進(jìn)行匹配,隨著數(shù)據(jù)源種類的不斷增加,靠人的經(jīng)驗(yàn)進(jìn)行匹配處理已非常困難。
標(biāo)準(zhǔn)維護(hù)的是不同數(shù)據(jù)源間類型的映射關(guān)系,在建立傳輸任務(wù)時(shí),可根據(jù)映射關(guān)系快速生成目標(biāo)表結(jié)構(gòu),達(dá)到快速建表、一鍵建表的能力。

5.2 元數(shù)據(jù)
元模型的配置在我們的實(shí)踐中主要包含對(duì)元模型分組管理、系統(tǒng)內(nèi)置項(xiàng)管理、用戶自定義項(xiàng)管理,目前已支持對(duì)表、字段、指標(biāo)、標(biāo)簽的元模型設(shè)計(jì)。
5.2.1 表元模型設(shè)計(jì)
5.2.1.1 分組管理

5.2.1.2 系統(tǒng)內(nèi)置項(xiàng)管理

5.2.1.3 自定義項(xiàng)管理

5.2.2 字段元模型設(shè)計(jì)

5.2.2 指標(biāo)元模型設(shè)計(jì)

5.2.3 標(biāo)簽元模型設(shè)計(jì)

5.3 模型設(shè)計(jì)
5.3.1 分層規(guī)劃
除了系統(tǒng)內(nèi)置的分層外,用戶可添加自定義分層

對(duì)于分層下的表,需要配置表名設(shè)計(jì)規(guī)范,將選取命名要素按照一定順序排列,得到命名規(guī)則

5.3.2 分類規(guī)劃
利用數(shù)據(jù)目錄管理進(jìn)行分類規(guī)劃,在資源目錄、資產(chǎn)側(cè)按照?qǐng)鼍皩?duì)數(shù)據(jù)資源進(jìn)行編目,滿足各類用戶查數(shù)用數(shù)需求。如:主題域劃分、來(lái)源系統(tǒng)劃分、安全分類等。
5.3.3 表結(jié)構(gòu)及數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)設(shè)計(jì)
設(shè)計(jì)表結(jié)構(gòu)時(shí),一方面根據(jù)填寫(xiě)的中文描述,自動(dòng)推薦對(duì)應(yīng)的數(shù)據(jù)元(若標(biāo)準(zhǔn)存在),另一方面可直接選擇數(shù)據(jù)元,平臺(tái)將根據(jù)選擇的數(shù)據(jù)元自動(dòng)回填字段名、字段類型、字段描述以及關(guān)聯(lián)的標(biāo)準(zhǔn)數(shù)據(jù)字典,如下圖所示:

具體應(yīng)用一般放在模型設(shè)計(jì)中心添加字段時(shí)進(jìn)行關(guān)聯(lián):

5.4 數(shù)據(jù)開(kāi)發(fā)
SQL編輯時(shí)根據(jù)選擇的輸入輸出表,通過(guò)表字段關(guān)聯(lián)的數(shù)據(jù)元信息,將相同含義的字段自動(dòng)進(jìn)行映射,快速生成SQL,用戶只需對(duì)生成的SQL進(jìn)行確認(rèn)即可。
在后續(xù)的規(guī)劃中,標(biāo)準(zhǔn)將助力可視化ETL以及自動(dòng)化ETL,協(xié)助用戶進(jìn)行字段映射,根據(jù)數(shù)據(jù)元關(guān)聯(lián)的稽核規(guī)則、脫敏規(guī)則等,自動(dòng)獲取對(duì)應(yīng)的處理函數(shù),即可生成開(kāi)發(fā)腳本。
5.5 數(shù)據(jù)質(zhì)量
數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)質(zhì)量稽核規(guī)則的主要參考依據(jù),通過(guò)將數(shù)據(jù)質(zhì)量稽核規(guī)則與數(shù)據(jù)標(biāo)準(zhǔn)關(guān)聯(lián),一方面可以實(shí)現(xiàn)字段級(jí)的數(shù)據(jù)質(zhì)量校驗(yàn),另一方面也可以直接構(gòu)建較為通用的數(shù)據(jù)質(zhì)量稽核規(guī)則體系,確保規(guī)則的全面性和可用性。


5.6 數(shù)據(jù)安全
數(shù)據(jù)標(biāo)準(zhǔn)可包含業(yè)務(wù)敏感數(shù)據(jù)對(duì)象和屬性,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)安全管理相關(guān)規(guī)則的定義。通過(guò)數(shù)據(jù)元關(guān)聯(lián),快速生成字段級(jí)加密或脫敏規(guī)則。

總結(jié)
數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)及管理任重而道遠(yuǎn),后續(xù)將逐步擴(kuò)展標(biāo)準(zhǔn)的應(yīng)用場(chǎng)景,滿足各行業(yè)客戶的需求。隨著管理內(nèi)容的不斷豐富,管理流程的不斷完善,標(biāo)準(zhǔn)將作為數(shù)據(jù)中臺(tái)的基石,為各模塊、各流程階段提供規(guī)范性指導(dǎo)及監(jiān)督。
作者簡(jiǎn)介
破浪人丨找數(shù)據(jù)如何更準(zhǔn)更快?這個(gè)95年小哥哥有奇招~

Excel函數(shù):這幾個(gè)Excel新函數(shù),真香!
推薦收藏:60種數(shù)據(jù)圖表、使用場(chǎng)景和制作工具
網(wǎng)易云音樂(lè):活動(dòng)效果分析的數(shù)據(jù)分析體系
分享,點(diǎn)贊,在看,安排一下?