如何提升數(shù)據(jù)質(zhì)量?(附實(shí)戰(zhàn)文檔)
一、前言
數(shù)據(jù)質(zhì)量保障的關(guān)鍵的步驟是數(shù)據(jù)質(zhì)量規(guī)則、數(shù)據(jù)質(zhì)量指標(biāo),數(shù)據(jù)探查,數(shù)據(jù)保障機(jī)制和數(shù)據(jù)清洗,不管是在做數(shù)據(jù)質(zhì)量或者打算做數(shù)據(jù)質(zhì)量工作的朋友都可以詳細(xì)研究下,應(yīng)該會有幫助。
?
本篇包含數(shù)質(zhì)量基礎(chǔ),數(shù)據(jù)質(zhì)量規(guī)則、指標(biāo)(附模板下載),數(shù)據(jù)探查(附模板下載),數(shù)據(jù)保障機(jī)制,數(shù)據(jù)清洗(附模板下載),常見質(zhì)量問題(附下載文檔)
?

二、數(shù)據(jù)質(zhì)量基礎(chǔ)
數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對數(shù)據(jù)從計(jì)劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
?
數(shù)據(jù)質(zhì)量最關(guān)鍵的6個(gè)維度:
1)完整性:指數(shù)據(jù)在錄入、傳遞過程中無缺失和遺漏,包括實(shí)體完整、屬性完整、記錄完整和字段值完整四個(gè)方面。
2)及時(shí)性:指及時(shí)記錄和傳遞相關(guān)數(shù)據(jù),滿足業(yè)務(wù)對信息獲取的時(shí)間要求。
3)有效性:指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和業(yè)務(wù)定義的要求。
4)一致性:指遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)記錄和傳遞數(shù)據(jù)和信息,主要體現(xiàn)在數(shù)據(jù)
記錄是否規(guī)范、數(shù)據(jù)是否符合邏輯。
5)唯一性:指同一數(shù)據(jù)只能有唯一的標(biāo)識符。
6)準(zhǔn)確性:指真實(shí)地、準(zhǔn)確地記錄原始數(shù)據(jù),無虛假數(shù)據(jù)及信息。
?
三、數(shù)據(jù)質(zhì)量規(guī)則,數(shù)據(jù)質(zhì)量指標(biāo)
數(shù)據(jù)質(zhì)量規(guī)則是數(shù)據(jù)質(zhì)量最核心的內(nèi)容,數(shù)據(jù)質(zhì)量規(guī)則和指標(biāo)設(shè)計(jì)的全與不全,是否合理,決定了數(shù)據(jù)的質(zhì)量的好壞。下面是我根據(jù)華為數(shù)據(jù)之道和工業(yè)企業(yè)數(shù)字化轉(zhuǎn)型之道加上我的經(jīng)驗(yàn)綜合出來的一個(gè)版本,如果這些規(guī)則都用到位,數(shù)據(jù)質(zhì)量應(yīng)該是有保障的,由于列比較多,完整版請?jiān)诠娞柅@取。
?
| 對象 | 質(zhì)量特性 | 規(guī)則類型 | 指標(biāo) |
| 單列 | 完整性 | 不可為空類 | 空值率 |
| 有效性? | 語法約束類 | 1-樣本記錄異常值比率 | |
| 有效性? | 格式規(guī)范類 | ||
| 有效性? | 長度約束類 | ||
| 有效性? | 值域約束類 | ||
| 準(zhǔn)確性 | 事實(shí)參照標(biāo)準(zhǔn)類 | 樣本記錄中真實(shí)記錄的比率 | |
| 跨列 | 完整性 | 應(yīng)為空值類 | |
| 及時(shí)性 | 入庫及時(shí)類 | 滿足時(shí)間要求的樣本記錄的比率 | |
| 一致性 | 單表等值一致約束類 | ||
| 一致性 | 單表邏輯一致約束類 | ||
| 跨行 | 唯一性? | 記錄唯一類 | |
| 一致性 | 層級結(jié)構(gòu)一致約束 | ||
| 跨表 | 一致性 | 外關(guān)聯(lián)約束類 | 外鍵無對應(yīng)主鍵的樣本記錄比率 |
| 一致性 | 跨表等值一致約束類 | ||
| 一致性 | 跨表邏輯一致約束類 | ||
| 跨系統(tǒng) | 一致性 | 跨系統(tǒng)記錄一致約束類 | 樣本記錄與其它系統(tǒng)的匹配率 |
| 及時(shí)性 | 入庫及時(shí)類 | 滿足時(shí)間要求的樣本記錄的比率 |
四、數(shù)據(jù)探查?
數(shù)據(jù)探查是數(shù)據(jù)質(zhì)量保障非常重要要的一步,他是設(shè)計(jì)的基礎(chǔ),排除客觀原因,好的效率和質(zhì)量是可以通過設(shè)計(jì)來提升的,如果沒有數(shù)據(jù)探查,一般情況下數(shù)據(jù)類項(xiàng)目都會反復(fù)多次,有可能影響人員變動,交接困難,維護(hù)困難,項(xiàng)目完成周期長等問題。
下面只是其中幾個(gè)方面的數(shù)據(jù)探查,供參考,具體案例,請?jiān)诠娞柅@取。
探查出的常見問題和分類請?jiān)诠娞柅@取。
?
探查項(xiàng) | 分析意義 | 分析點(diǎn) | 分析點(diǎn)解釋 |
完整性分析 | 保證分析的可靠性 | 空值記錄數(shù) | 探查字段在探查時(shí)間點(diǎn)沒有值的記錄條數(shù) |
總記錄數(shù) | 探查字段在探查時(shí)間點(diǎn)總記錄數(shù) | ||
缺失率 | 探查字段在探查時(shí)間點(diǎn)缺失信息記錄數(shù)占總記錄數(shù)的比重 | ||
空值預(yù)警 | 探查字段在探查時(shí)間點(diǎn)缺失率高于10%則提出預(yù)警 | ||
主鍵唯一性 | 探查主鍵字段在探查時(shí)間點(diǎn)是否有重復(fù)記錄 | ||
值域分析 | 分析是否有異常數(shù)據(jù) | 最大值 | 數(shù)值型,日期型字段在探查時(shí)間點(diǎn)的最大值 |
最小值 | 數(shù)值型,日期型字段在探查時(shí)間點(diǎn)的最小值 | ||
枚舉值分析 | 列出檢測字段所有的枚舉值 | 枚舉范圍 | 屬性字段的枚舉值定義 |
枚舉實(shí)際范圍值 | 屬性字段在探查時(shí)間點(diǎn)實(shí)際的枚舉值及其分布 | ||
異常比例 | 探查時(shí)間點(diǎn),不在枚舉定義范圍的枚舉值占總記錄數(shù)的比重 | ||
邏輯性探查 | 業(yè)務(wù)邏輯點(diǎn) | 根據(jù)業(yè)務(wù)邏輯探查字段是否遵循業(yè)務(wù)邏輯 |
?
五、數(shù)據(jù)質(zhì)量保障機(jī)制
數(shù)據(jù)質(zhì)量持續(xù)提升就要靠保障機(jī)制了,只有自動化,常態(tài)化,持續(xù)監(jiān)控?cái)?shù)據(jù)質(zhì)量,才能不斷提升數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量保障主要有如下幾個(gè)關(guān)鍵步驟:
設(shè)計(jì)量化指標(biāo)—>設(shè)計(jì)質(zhì)量打分細(xì)則->設(shè)計(jì)分值考核->異常數(shù)據(jù)監(jiān)控->指標(biāo)展現(xiàn)->按規(guī)則推送提醒相關(guān)負(fù)責(zé)人

例:空值率>5%,記1分,每日空值率指標(biāo)預(yù)警,每日全部門通報(bào),影響年底考核。
此部分需要根據(jù)公司實(shí)際情況詳細(xì)設(shè)計(jì)。
六、數(shù)據(jù)清洗
數(shù)據(jù)清洗(Data cleaning)– 對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。主要有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類;
?
如果前端控制不到位,又想有高質(zhì)量的數(shù)據(jù),只能靠數(shù)據(jù)清洗,數(shù)據(jù)清洗是存量數(shù)據(jù)質(zhì)量提升的關(guān)鍵步驟,數(shù)據(jù)清洗后的數(shù)據(jù)可以更好的支持?jǐn)?shù)據(jù)分析,數(shù)據(jù)洞見。
?參考模板在公眾號獲取。
?
七、結(jié)語
上面是我對數(shù)據(jù)質(zhì)量的一些理解和實(shí)戰(zhàn)經(jīng)驗(yàn),如果對您有幫助,煩請關(guān)注、轉(zhuǎn)發(fā),如有任何問題,請留言或加我微信入群,我們一起探討,一起持續(xù)構(gòu)建數(shù)據(jù)治理體系。
?
如需獲取資料,請?jiān)诠娞柡笈_回復(fù)“數(shù)據(jù)質(zhì)量”獲取。

