如何提升數據質量?(附實戰(zhàn)文檔)
一、前言
數據質量保障的關鍵的步驟是數據質量規(guī)則、數據質量指標,數據探查,數據保障機制和數據清洗,不管是在做數據質量或者打算做數據質量工作的朋友都可以詳細研究下,應該會有幫助。
?
本篇包含數質量基礎,數據質量規(guī)則、指標(附模板下載),數據探查(附模板下載),數據保障機制,數據清洗(附模板下載),常見質量問題(附下載文檔)
?

二、數據質量基礎
數據質量管理(Data Quality Management),是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發(fā)的各類數據質量問題,進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
?
數據質量最關鍵的6個維度:
1)完整性:指數據在錄入、傳遞過程中無缺失和遺漏,包括實體完整、屬性完整、記錄完整和字段值完整四個方面。
2)及時性:指及時記錄和傳遞相關數據,滿足業(yè)務對信息獲取的時間要求。
3)有效性:指數據的值、格式和展現形式符合數據定義和業(yè)務定義的要求。
4)一致性:指遵循統(tǒng)一的數據標準記錄和傳遞數據和信息,主要體現在數據
記錄是否規(guī)范、數據是否符合邏輯。
5)唯一性:指同一數據只能有唯一的標識符。
6)準確性:指真實地、準確地記錄原始數據,無虛假數據及信息。
?
三、數據質量規(guī)則,數據質量指標
數據質量規(guī)則是數據質量最核心的內容,數據質量規(guī)則和指標設計的全與不全,是否合理,決定了數據的質量的好壞。下面是我根據華為數據之道和工業(yè)企業(yè)數字化轉型之道加上我的經驗綜合出來的一個版本,如果這些規(guī)則都用到位,數據質量應該是有保障的,由于列比較多,完整版請在公眾號獲取。
?
| 對象 | 質量特性 | 規(guī)則類型 | 指標 |
| 單列 | 完整性 | 不可為空類 | 空值率 |
| 有效性? | 語法約束類 | 1-樣本記錄異常值比率 | |
| 有效性? | 格式規(guī)范類 | ||
| 有效性? | 長度約束類 | ||
| 有效性? | 值域約束類 | ||
| 準確性 | 事實參照標準類 | 樣本記錄中真實記錄的比率 | |
| 跨列 | 完整性 | 應為空值類 | |
| 及時性 | 入庫及時類 | 滿足時間要求的樣本記錄的比率 | |
| 一致性 | 單表等值一致約束類 | ||
| 一致性 | 單表邏輯一致約束類 | ||
| 跨行 | 唯一性? | 記錄唯一類 | |
| 一致性 | 層級結構一致約束 | ||
| 跨表 | 一致性 | 外關聯約束類 | 外鍵無對應主鍵的樣本記錄比率 |
| 一致性 | 跨表等值一致約束類 | ||
| 一致性 | 跨表邏輯一致約束類 | ||
| 跨系統(tǒng) | 一致性 | 跨系統(tǒng)記錄一致約束類 | 樣本記錄與其它系統(tǒng)的匹配率 |
| 及時性 | 入庫及時類 | 滿足時間要求的樣本記錄的比率 |
四、數據探查?
數據探查是數據質量保障非常重要要的一步,他是設計的基礎,排除客觀原因,好的效率和質量是可以通過設計來提升的,如果沒有數據探查,一般情況下數據類項目都會反復多次,有可能影響人員變動,交接困難,維護困難,項目完成周期長等問題。
下面只是其中幾個方面的數據探查,供參考,具體案例,請在公眾號獲取。
探查出的常見問題和分類請在公眾號獲取。
?
探查項 | 分析意義 | 分析點 | 分析點解釋 |
完整性分析 | 保證分析的可靠性 | 空值記錄數 | 探查字段在探查時間點沒有值的記錄條數 |
總記錄數 | 探查字段在探查時間點總記錄數 | ||
缺失率 | 探查字段在探查時間點缺失信息記錄數占總記錄數的比重 | ||
空值預警 | 探查字段在探查時間點缺失率高于10%則提出預警 | ||
主鍵唯一性 | 探查主鍵字段在探查時間點是否有重復記錄 | ||
值域分析 | 分析是否有異常數據 | 最大值 | 數值型,日期型字段在探查時間點的最大值 |
最小值 | 數值型,日期型字段在探查時間點的最小值 | ||
枚舉值分析 | 列出檢測字段所有的枚舉值 | 枚舉范圍 | 屬性字段的枚舉值定義 |
枚舉實際范圍值 | 屬性字段在探查時間點實際的枚舉值及其分布 | ||
異常比例 | 探查時間點,不在枚舉定義范圍的枚舉值占總記錄數的比重 | ||
邏輯性探查 | 業(yè)務邏輯點 | 根據業(yè)務邏輯探查字段是否遵循業(yè)務邏輯 |
?
五、數據質量保障機制
數據質量持續(xù)提升就要靠保障機制了,只有自動化,常態(tài)化,持續(xù)監(jiān)控數據質量,才能不斷提升數據的質量,數據質量保障主要有如下幾個關鍵步驟:
設計量化指標—>設計質量打分細則->設計分值考核->異常數據監(jiān)控->指標展現->按規(guī)則推送提醒相關負責人

例:空值率>5%,記1分,每日空值率指標預警,每日全部門通報,影響年底考核。
此部分需要根據公司實際情況詳細設計。
六、數據清洗
數據清洗(Data cleaning)– 對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。主要有不完整的數據、錯誤的數據、重復的數據三大類;
?
如果前端控制不到位,又想有高質量的數據,只能靠數據清洗,數據清洗是存量數據質量提升的關鍵步驟,數據清洗后的數據可以更好的支持數據分析,數據洞見。
?參考模板在公眾號獲取。
?
七、結語
上面是我對數據質量的一些理解和實戰(zhàn)經驗,如果對您有幫助,煩請關注、轉發(fā),如有任何問題,請留言或加我微信入群,我們一起探討,一起持續(xù)構建數據治理體系。
?
如需獲取資料,請在公眾號后臺回復“數據質量”獲取。

