數(shù)據(jù)目錄是什么?您為何需要它?

來源:談數(shù)據(jù)
在上文我們簡單介紹數(shù)據(jù)目錄的定義,也就是使用元數(shù)據(jù)來幫助企業(yè)管理數(shù)據(jù)。接下來,我們使用圖書館作類比,帶您詳細了解數(shù)據(jù)目錄。
當您前往圖書館查找某一圖書時,您可以使用圖書目錄來查找該圖書是否存在,了解它的版本、位置以及相關描述。您可以使用所有這些信息來決定是否真的需要這本書,了解如何找到它。
當今的許多對象存儲、數(shù)據(jù)庫和數(shù)據(jù)倉庫就相當于一座座圖書館。
我們再回到圖書館和圖書目錄?,F(xiàn)在,我們對圖書目錄進行擴展,涵蓋整個國家的所有圖書館。想象一下,這樣您就可以在一個界面中查找整個國家中儲藏了您所需圖書的所有圖書館,查找關于您所需的每一本圖書的所有詳細信息。
企業(yè)數(shù)據(jù)目錄之于數(shù)據(jù),正如圖書目錄之于圖書。它可以為您提供一個整體視圖,提供關于您所有數(shù)據(jù)的深度可見性,而不僅僅是一次只查看某一項數(shù)據(jù)。
您為什么需要這樣一個視圖呢?
需耗費大量時間和精力查找和訪問數(shù)據(jù) 數(shù)據(jù)湖變成了數(shù)據(jù)沼澤 無通用業(yè)務詞匯 難以理解“黑暗數(shù)據(jù)”的結(jié)構和類別 難以評估數(shù)據(jù)來源、質(zhì)量和可靠性 無法捕獲部落知識或丟失的知識 難以重用知識和數(shù)據(jù)資產(chǎn) 需手動和臨時進行數(shù)據(jù)準備
我們 CRM 應用中的模式變更將產(chǎn)生哪些影響? Peoplesoft 和 HCM 數(shù)據(jù)結(jié)構有何不同?
從何處可以找到和查看一些地理位置數(shù)據(jù)? 如何輕松訪問數(shù)據(jù)湖中的數(shù)據(jù)?
我們是否真的在改善運營數(shù)據(jù)質(zhì)量? 我們是否為重要的關鍵數(shù)據(jù)元素定義了標準?
哪些人可以訪問客戶的個人信息? 我們是否為所有數(shù)據(jù)定義了保留策略?
在過去幾年中,隨著需要管理和訪問的數(shù)據(jù)的數(shù)量日益增長,數(shù)據(jù)目錄這一概念開始流行起來。在這一切的背后,是云、大數(shù)據(jù)分析、人工智能和機器學習正逐漸改變?nèi)藗儾榭?、管理和使用?shù)據(jù)的方式 — 不僅要管理數(shù)據(jù),還要訪問和充分利用數(shù)據(jù)。
使用數(shù)據(jù)目錄,您可以更好地使用數(shù)據(jù),獲得以下優(yōu)勢:
節(jié)省成本 提高運營效率 增強競爭優(yōu)勢 改善客戶體驗 減少欺詐,降低風險 等等
數(shù)據(jù)發(fā)現(xiàn)還包括通過各種方式來理解數(shù)據(jù)的形態(tài)和特征,例如簡單的值分布和統(tǒng)計信息,或者重要且復雜的個人身份信息 (PII) 或個人健康信息 (PHI)。
許多人可能不熟悉元數(shù)據(jù),我們有必要先介紹一些簡單的概念。元數(shù)據(jù)是什么?元數(shù)據(jù)分為 3 類:
技術元數(shù)據(jù):模式、表、列、文件名、報告名 — 源系統(tǒng)中記錄的所有信息
業(yè)務元數(shù)據(jù):通常指用戶具備的關于組織資產(chǎn)的業(yè)務知識,包括業(yè)務描述、備注、注釋、分類、適用性、評級等等。
操作元數(shù)據(jù):這一對象的刷新時間?它由哪一個 ETL 作業(yè)創(chuàng)建?表格被訪問次數(shù)有多少?具體有哪些?
在過去幾年里,這些寶貴的元數(shù)據(jù)的使用方式發(fā)生了一次細微的變革。曾經(jīng),元數(shù)據(jù)僅用于審計、來歷追溯和報告。如今,無服務器處理、圖形數(shù)據(jù)庫等技術創(chuàng)新,尤其是全新、更加便捷的 AI 和機器學習技術正在突破元數(shù)據(jù)的界限,帶來新的可能。
在今天,元數(shù)據(jù)可增強數(shù)據(jù)管理。從自助數(shù)據(jù)準備到角色和數(shù)據(jù)內(nèi)容庫訪問控制,自動化數(shù)據(jù)打通,異常監(jiān)視和警報,自動化資源供應和擴展等等,元數(shù)據(jù)可以全面增強所有這些功能。
數(shù)據(jù)目錄可以使用元數(shù)據(jù)幫助您實現(xiàn)比數(shù)據(jù)管理更強大的功能。
一個優(yōu)秀的數(shù)據(jù)目錄應當具備以下功能:
①數(shù)據(jù)搜索和發(fā)現(xiàn):數(shù)據(jù)目錄應當具備靈活的搜索和過濾選項,從而賦能用戶快速找到相關數(shù)據(jù)集,以實施數(shù)據(jù)科學、分析或數(shù)據(jù)工程;按照數(shù)據(jù)資產(chǎn)的技術層級來瀏覽元數(shù)據(jù)。此外,如支持用戶輸入技術信息、自定義標簽或業(yè)務術語,數(shù)據(jù)目錄可以進一步改善搜索功能。
②從各種數(shù)據(jù)源收集元數(shù)據(jù):請確保您的數(shù)據(jù)目錄可以從各種互聯(lián)數(shù)據(jù)資產(chǎn)中收集技術元數(shù)據(jù),包括對象存儲、自治駕駛數(shù)據(jù)庫、本地部署系統(tǒng)等等。
③元數(shù)據(jù)管理:數(shù)據(jù)目錄應支持主題專家通過企業(yè)業(yè)務術語表、標簽、關聯(lián)、用戶自定義注釋、分類、評級等形式來貢獻業(yè)務知識。
④自動化和數(shù)據(jù)智能:對于大規(guī)模數(shù)據(jù),人工智能和機器學習通常必不可少。因此,數(shù)據(jù)目錄應利用 AI 和機器學習技術來處理所收集的元數(shù)據(jù),讓所有可以自動化的手動任務都實現(xiàn)自動化。此外,人工智能和機器學習還可以切實增強數(shù)據(jù)功能,例如為數(shù)據(jù)目錄用戶以及現(xiàn)代化數(shù)據(jù)平臺上其他服務的用戶提供數(shù)據(jù)建議。
⑤企業(yè)級功能:您需要利用強大的企業(yè)級功能來正確使用您至關重要的數(shù)據(jù)資產(chǎn),例如身份與訪問管理功能以及基于 REST API 的重要功能。同時,這還意味著客戶和合作伙伴可以貢獻元數(shù)據(jù)(例如自定義收集器),通過 REST 公開其應用中的數(shù)據(jù)目錄功能。
除此之外,您的數(shù)據(jù)目錄還應當成為事實上的系統(tǒng)目錄,從而為所有持久層(例如對象存儲、Hadoop、數(shù)據(jù)庫和數(shù)據(jù)倉庫)以及跨所有數(shù)據(jù)存儲運行的查詢服務提供抽象。
正是因為如此,數(shù)據(jù)目錄已不再僅僅是錦上添花,而是成為了一項必不可少的工具。
免責聲明:
本公眾號所有分享的軟件和資料來自網(wǎng)絡收集和整理,所有文字和圖片版權歸屬于原作者所有,且僅代表作者個人觀點,與數(shù)據(jù)工匠俱樂部無關,文章僅供讀者學習交流使用,并請自行核實相關內(nèi)容,如文章內(nèi)容涉及侵權,請聯(lián)系后臺管理員刪除
免責聲明:
本公眾號所有分享的軟件和資料來自網(wǎng)絡收集和整理,所有文字和圖片版權歸屬于原作者所有,且僅代表作者個人觀點,與數(shù)據(jù)工匠俱樂部無關,文章僅供讀者學習交流使用,并請自行核實相關內(nèi)容,如文章內(nèi)容涉及侵權,請聯(lián)系后臺管理員刪除
(歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)

掃描二維碼關注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。
我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長按,識別二維碼,關注我們吧!
數(shù)據(jù)工匠俱樂部
微信號:zgsjgjjlb
專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。
