數(shù)據(jù)資產(chǎn)管理:數(shù)據(jù)發(fā)現(xiàn),發(fā)現(xiàn)什么,怎么發(fā)現(xiàn)?
這個(gè)周末好不容易抽出一些時(shí)間,寫了這篇文章。今天我們繼續(xù)聊數(shù)據(jù)資產(chǎn)管理這個(gè)話題。上篇文章《數(shù)據(jù)資產(chǎn)管理:企業(yè)的數(shù)據(jù)資產(chǎn)怎么盤?》中,我們對(duì)數(shù)據(jù)資產(chǎn)梳理和盤點(diǎn)的方法、流程、模板進(jìn)行了介紹,相信大家對(duì)數(shù)據(jù)資產(chǎn)盤點(diǎn)應(yīng)該有所了解了。可能有人會(huì)問,數(shù)據(jù)資產(chǎn)盤點(diǎn)都是人工在做,有沒有更智能的方法,能夠自動(dòng)盤點(diǎn)數(shù)據(jù),讓數(shù)據(jù)更容易查找和使用?
01 ?數(shù)據(jù)資產(chǎn)發(fā)現(xiàn),是什么?
數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)是一個(gè)可視化、智能化的數(shù)據(jù)管理工具,它的定位是使業(yè)務(wù)和技術(shù)人員能夠在需要時(shí)更容易找到、理解和使用他們想要的數(shù)據(jù)。
這個(gè)概念是不是似曾相識(shí)?是的,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)與數(shù)據(jù)資產(chǎn)目錄在定位上很相似,從本質(zhì)上講,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)就是一種更智能的數(shù)據(jù)資產(chǎn)目錄工具。如果我們將大數(shù)據(jù)比作石油的話,數(shù)據(jù)發(fā)現(xiàn)就是勘探、采集、處理和煉化石油的過程,它能夠更加自動(dòng)化的識(shí)別數(shù)據(jù)資產(chǎn),對(duì)數(shù)據(jù)進(jìn)行遷移、清洗、標(biāo)記、編目和可視化,從而最大化的釋放數(shù)據(jù)價(jià)值。
通常來講,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)具備如下能力:
1、多數(shù)據(jù)源連接
數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)可以連接多個(gè)數(shù)據(jù)源,實(shí)現(xiàn)數(shù)據(jù)的可視化、集成和遷移。支持的數(shù)據(jù)源除了結(jié)構(gòu)化數(shù)據(jù),還能夠?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵元數(shù)據(jù)進(jìn)行識(shí)別和采集。
2、元數(shù)據(jù)分析
對(duì)元數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)分析,可視化展示數(shù)據(jù)源的元數(shù)據(jù),包括數(shù)據(jù)表的大小、注釋、列數(shù)量、時(shí)間列數(shù)量、主鍵數(shù)量等信息,更細(xì)一步地,還統(tǒng)計(jì)了列級(jí)別的元數(shù)據(jù),包括列注釋、字段類型、列長度、是否主鍵列等信息。
3、數(shù)據(jù)分類和編目
數(shù)據(jù)發(fā)現(xiàn)與數(shù)據(jù)分類密切相關(guān),通過自然語言處理、語義解析,根據(jù)數(shù)據(jù)的有用性、敏感性或安全性要求進(jìn)行識(shí)別、分類和編目,形成業(yè)務(wù)、技術(shù)多個(gè)視角能夠識(shí)別、查詢和瀏覽的數(shù)據(jù)資產(chǎn)目錄。
4、清理和準(zhǔn)備數(shù)據(jù)
有了數(shù)據(jù)目錄,用戶就可以輕松找到想要的數(shù)據(jù)。但是找到了數(shù)據(jù),不一定就意味著它能直接使用,因?yàn)檫@些數(shù)據(jù)往往還存在很多的質(zhì)量問題,必須要對(duì)這些數(shù)據(jù)作進(jìn)一步的清理。數(shù)據(jù)發(fā)現(xiàn)工具一般具備自助數(shù)據(jù)準(zhǔn)備和自動(dòng)進(jìn)行數(shù)據(jù)清理功能,提供有關(guān)值域范圍、異常值、錯(cuò)誤值和其他數(shù)據(jù)屬性和問題的檢查和處理,為數(shù)據(jù)共享和分析提供支撐。
5、數(shù)據(jù)探索
02 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn),發(fā)現(xiàn)什么?
很多企業(yè)數(shù)據(jù)資產(chǎn)管理的最大痛點(diǎn)就是數(shù)據(jù)分散,企業(yè)不知道自己有哪些數(shù)據(jù)可用。企業(yè)數(shù)據(jù)大部分分散在不同的系統(tǒng)、不同的數(shù)據(jù)源和不同的設(shè)備中,識(shí)別、分類、處理和分析數(shù)據(jù),并從中獲得洞察力對(duì)任何企業(yè)都至關(guān)重要。
那么,數(shù)據(jù)發(fā)現(xiàn)到底能夠發(fā)現(xiàn)什么?
數(shù)據(jù)的位置:數(shù)據(jù)發(fā)現(xiàn)通過連接數(shù)據(jù)源、采集和分析元數(shù)據(jù),能夠識(shí)別企業(yè)有哪些數(shù)據(jù),并定位這些數(shù)據(jù)在哪里存放,誰可以訪問它。
數(shù)據(jù)的結(jié)構(gòu):數(shù)據(jù)發(fā)現(xiàn)可以自動(dòng)解析數(shù)據(jù)的結(jié)構(gòu),包括對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的的數(shù)據(jù)特征提取,通過統(tǒng)計(jì)模型對(duì)數(shù)據(jù)進(jìn)行分類。
數(shù)據(jù)的傳輸:數(shù)據(jù)發(fā)現(xiàn)捕獲數(shù)據(jù)的流向,了解傳輸哪些數(shù)據(jù)、如何傳輸以及通過哪些渠道傳輸。
敏感的數(shù)據(jù):數(shù)據(jù)發(fā)現(xiàn)通過內(nèi)置的數(shù)據(jù)口徑、標(biāo)準(zhǔn)和規(guī)則,可以自動(dòng)識(shí)別數(shù)據(jù)的技術(shù)屬性和業(yè)務(wù)屬性,可以快速對(duì)身份證號(hào)碼,姓名,地址,手機(jī)號(hào)、銀行賬號(hào)等敏感信息進(jìn)行識(shí)別、分類和跟蹤,方便評(píng)估安全或隱私風(fēng)險(xiǎn)并定義緩解策略。
數(shù)據(jù)的問題:數(shù)據(jù)發(fā)現(xiàn)通過數(shù)據(jù)質(zhì)量檢核,可以對(duì)數(shù)據(jù)集中的數(shù)據(jù)值域范圍、異常值、錯(cuò)誤值、重復(fù)數(shù)據(jù)等數(shù)據(jù)問題進(jìn)行稽核,快速發(fā)現(xiàn)數(shù)據(jù)集中的問題數(shù)據(jù),并執(zhí)行數(shù)據(jù)清理,以提高數(shù)據(jù)質(zhì)量。
數(shù)據(jù)的含義:數(shù)據(jù)發(fā)現(xiàn)通過豐富的圖表,通過可視化的方式展示數(shù)據(jù)資產(chǎn)地圖,直觀清晰的展現(xiàn)數(shù)據(jù)富含的意義、用途等,使得用戶可以快速的了解數(shù)據(jù),并從數(shù)據(jù)中獲得洞察力。
03 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn),怎么發(fā)現(xiàn)?
當(dāng)下,數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)主要有兩種形式:手動(dòng)發(fā)現(xiàn)和智能發(fā)現(xiàn)。
1、手動(dòng)數(shù)據(jù)發(fā)現(xiàn)
在過去 20 年里,在機(jī)器學(xué)習(xí)進(jìn)步之前,數(shù)據(jù)相關(guān)工作人員對(duì)數(shù)據(jù)的相關(guān)作業(yè),如:發(fā)現(xiàn)數(shù)據(jù)、采集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)等,大部分需要依靠人類的腦力和體力。簡(jiǎn)單地說,人們通過人為的方式,識(shí)別和記憶關(guān)于哪些數(shù)據(jù)可用,存儲(chǔ)在哪里,為什么需要,以及為最終用戶提供帶來什么價(jià)值。
后來,企業(yè)開始有意識(shí)的管理數(shù)據(jù),通過監(jiān)控元數(shù)據(jù)和數(shù)據(jù)血緣,發(fā)現(xiàn)并了解數(shù)據(jù)分類和流程。數(shù)據(jù)管理員,通常是具有復(fù)雜技術(shù)和知識(shí)的人才能勝任,負(fù)責(zé)企業(yè)數(shù)據(jù)資產(chǎn)的盤點(diǎn)和管理,基于一定業(yè)務(wù)規(guī)則對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行分類和編目。在這一過程,數(shù)據(jù)管理員通過手動(dòng)的方式建立數(shù)據(jù)目錄、繪制數(shù)據(jù)地圖,以理解企業(yè)中的數(shù)據(jù)資產(chǎn)。而這一方式,一直沿用至今。
2、智能數(shù)據(jù)發(fā)現(xiàn)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈爆炸式增長,且數(shù)據(jù)在企業(yè)業(yè)務(wù)發(fā)展的過程中,扮演的角色越來越重要。傳統(tǒng)手動(dòng)發(fā)現(xiàn)數(shù)據(jù)的方式,在應(yīng)對(duì)企業(yè)的數(shù)據(jù)管理和使用需求,以及大規(guī)模、多樣化的數(shù)據(jù)增長情況下,顯得越來越吃力。因此,企業(yè)迫切需要一種更加自動(dòng)化、智能化的數(shù)據(jù)發(fā)現(xiàn)工具,來幫助企業(yè)從數(shù)據(jù)中獲得更深入的洞察力。
隨著技術(shù)的進(jìn)步,智能數(shù)據(jù)發(fā)現(xiàn)工具逐步成熟了起來。智能數(shù)據(jù)發(fā)現(xiàn)主要使用增強(qiáng)分析、自然語言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù),對(duì)數(shù)據(jù)進(jìn)行定位、探查、清理、集成和可視化,來呈現(xiàn)和洞察數(shù)據(jù)價(jià)值。智能數(shù)據(jù)發(fā)現(xiàn)是一個(gè)飛躍,通過對(duì)可用數(shù)據(jù)源的整體理解和分析,在黑匣子中進(jìn)行一些處理并得出合理答案。
有了AI的加持,數(shù)據(jù)發(fā)現(xiàn)有了令人興奮的創(chuàng)新方向:
AI 技術(shù)可用于數(shù)據(jù)準(zhǔn)備,例如:標(biāo)準(zhǔn)化數(shù)據(jù)、處理缺失數(shù)據(jù)、字符串模式識(shí)別等。 算法可用于識(shí)別和關(guān)注相關(guān)變量組數(shù)據(jù)中的特定模式或異常值。 時(shí)間序列分析對(duì)模式識(shí)別、異常值檢測(cè)和表關(guān)系發(fā)現(xiàn)具有不同的需求和意義。 可以收集、分析專家用戶的行為數(shù)據(jù),并用于影響推薦的分析操作。
JMP Statistical Discovery
Looker
Microsoft Power BI
Phocas
Qlik Sense
Spirion
Tableau
TIBCO Spotfire
Atlan
數(shù)據(jù)源連接和元數(shù)據(jù)采集,包括:結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等數(shù)據(jù)源
元數(shù)據(jù)管理和數(shù)據(jù)血緣,識(shí)別和解析數(shù)據(jù)的位置、含義等
全文元數(shù)據(jù)搜索,幫助用戶快速定位和查找數(shù)據(jù)
敏感信息識(shí)別、分類和監(jiān)控,這對(duì)于滿足合規(guī)性要求非常重要
數(shù)據(jù)準(zhǔn)備和提高數(shù)據(jù)質(zhì)量的工具
機(jī)器學(xué)習(xí)能力,包括預(yù)測(cè)分析
內(nèi)存分析,實(shí)現(xiàn)更快的查詢響應(yīng)時(shí)間
數(shù)據(jù)分析和可視化(圖表、地圖、表格以及其他形式)
版本控制,確保數(shù)據(jù)的完整性并防止意外數(shù)據(jù)丟失
(歡迎大家加入數(shù)據(jù)工匠知識(shí)星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識(shí)、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動(dòng)企業(yè)走進(jìn)大數(shù)據(jù)時(shí)代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)治理生態(tài)圈。
我們的價(jià)值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺(tái)、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長按,識(shí)別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂部
微信號(hào):zgsjgjjlb
專注數(shù)據(jù)治理,推動(dòng)大數(shù)據(jù)發(fā)展。
