所謂的數(shù)據(jù)質(zhì)量




將維度與業(yè)務(wù)需求相匹配,并且劃分評估的先后順序;
了解從每一維度的評估中能夠/不能夠得到什么;
在時間和資源有限的情況下,更好地定義和管理項目計劃中的行動順序。
唯一性(Uniqueness):用來描述數(shù)據(jù)是否存在重復(fù)記錄,沒有實體多余出現(xiàn)一次。
有效性(Validity):用來描述模型或數(shù)據(jù)是否滿足用戶定義的條件。通常從命名、數(shù)據(jù)類型、長度、值域、取值范圍、內(nèi)容規(guī)范等方面進(jìn)行約束。
一致性(Consistency):用來描述同一信息主體在不同的數(shù)據(jù)集中信息屬性是否相同,各實體、屬性是否符合一致性約束關(guān)系。
準(zhǔn)確性(Accuracy):用來描述數(shù)據(jù)是否與其對應(yīng)的客觀實體的特征相一致(需要一個確定的和可訪問的權(quán)威參考源)。
及時性(Timeless):用來描述從業(yè)務(wù)發(fā)生到對應(yīng)數(shù)據(jù)正確存儲并可正常查看的時間間隔程度,也叫數(shù)據(jù)的延時時長,數(shù)據(jù)在及時性上應(yīng)能盡可能貼合業(yè)務(wù)實際發(fā)生時點。
可信性(credibility):用來描述數(shù)據(jù)發(fā)生是否符合客觀規(guī)律。

當(dāng)然非空約束可以通過設(shè)置非空約束的方式限制數(shù)據(jù)無法寫入數(shù)據(jù)庫,如果支持這種方式可以避免事后的數(shù)據(jù)非空檢查。


長度約束:描述檢核對象的長度是否滿足長度約束。如“金融機(jī)構(gòu)編碼”在《人民銀行金融機(jī)構(gòu)編碼規(guī)范》中規(guī)定長度為14位,如果出現(xiàn)非14位的值,則判定為不滿足長度約束,不是一個有效的“金融機(jī)構(gòu)編碼”;
內(nèi)容規(guī)范約束:描述檢核對象的值是否按照一定的要求和規(guī)范進(jìn)行數(shù)據(jù)的錄入與存儲。如“存款賬號”應(yīng)僅含數(shù)字,如果出現(xiàn)字母或其他非法字符,則不是一個有效的“存款賬號”,不滿足內(nèi)容規(guī)范約束;
取值范圍約束:描述檢核對象的取值是否在預(yù)定義的范圍內(nèi)。如“授信額度”取值范圍應(yīng)大于等于 0,如果出現(xiàn)小于 0 的情況,則超出了取值范圍的約束,不是一個有效的“授信額度”;
例 1 : 依業(yè)務(wù)規(guī)則性別只有 “0:男” ,”1:女”,則性別字段只應(yīng)出現(xiàn)0或1。
例 2 : 貨幣代碼 (CURCODE) 只應(yīng)有RMB或是USD值。
數(shù)據(jù)質(zhì)量中代碼值域首先要指定企業(yè)級的統(tǒng)一編碼表,然后按照對照關(guān)系進(jìn)行 etl 轉(zhuǎn)換,至于出報告只需要通過 sql 查詢不再范圍內(nèi)的數(shù)值就可以了。
例如身份證號是 18 位。
長度約束可以通過建表時指定字符長度去限制,如果業(yè)務(wù)系統(tǒng)最初沒有做限制,只能通過 sql 判斷長度的方式獲取異常值再進(jìn)行處理。
例如:余額或者日期等一般都會按照固定類型存儲,如果最初設(shè)計為字符型后續(xù)應(yīng)按照對應(yīng)類型調(diào)整。
首先這種情況最好一開始就建立好統(tǒng)一規(guī)范,按照業(yè)務(wù)含義去指定技術(shù)類型。如果最初做的不好,可以通過類型進(jìn)行數(shù)據(jù)探查,對數(shù)據(jù)統(tǒng)一格式化。
例如:余額不能為負(fù)數(shù),日期不能為負(fù)數(shù)等等。
如果業(yè)務(wù)初始沒有做限制,只能通過 sql 去對數(shù)據(jù)過濾查詢,對有問題數(shù)據(jù)集中 etl 處理。

存在一致性依賴約束:描述檢核對象之間數(shù)據(jù)值存在關(guān)系的約束規(guī)則。一個檢核對象的數(shù)據(jù)值必須在另一個檢核對象滿足某一條件時存在。
邏輯一致性依賴約束:描述檢核對象之間數(shù)據(jù)值邏輯關(guān)系的約束規(guī)則。一個檢核對象上的數(shù)據(jù)值必須與另一個檢核對象的數(shù)據(jù)值滿足某種邏輯關(guān)系(如大于、小于等)。
例如:投保狀態(tài)為已投保,則投保日期不應(yīng)為空;
例如:投保開始時間小于等于投保結(jié)束時間。

再如:國際保函業(yè)務(wù)的手續(xù)費應(yīng)錄入為國際擔(dān)保手續(xù)費收入,卻錄入成國內(nèi)擔(dān)保手續(xù)費收入。
準(zhǔn)確性要求不僅數(shù)據(jù)的取值范圍和內(nèi)容規(guī)范滿足有效性的要求,其值也是客觀真實世界的數(shù)據(jù)。由此可見,有效的數(shù)據(jù)未必是準(zhǔn)確的,反之成立。
準(zhǔn)確性通常需要業(yè)務(wù)人員或其他當(dāng)事人手工核查。

例如:系統(tǒng)中貸款五級分類的分類比實際中的延遲幾天變化;再如理財業(yè)務(wù)在理財系統(tǒng)中是成功狀態(tài),但在核心系統(tǒng)中卻因通信的原因而沒有入賬。
及時性由于多個系統(tǒng)、通信等原因而造成,通常需要業(yè)務(wù)人員或系統(tǒng)人員手工核查。
一般來說數(shù)據(jù)同步都是基于業(yè)務(wù)系統(tǒng)的落表技術(shù)字段(比如:CREATE_DT),而真是業(yè)務(wù)發(fā)生的時間可能與該字段存在時間間隔。可以通過簡單的sql對兩個時間比較,判斷數(shù)據(jù)的及時性是否符合需求。

例如:保單數(shù)據(jù)的每日分區(qū)數(shù)據(jù)較前日一般有 10% 增長,突然數(shù)據(jù)增長變?yōu)?00%,這種情況有可能時數(shù)據(jù)同步出現(xiàn)問題。
再如:每月的營收總額一般都按一定規(guī)律上漲,突然數(shù)據(jù)波動較大則一般都可能出現(xiàn)問題。
可信性要求數(shù)據(jù)的總量波動符合基本客觀規(guī)律,一般通過對 7,15,30 日數(shù)據(jù)進(jìn)行比較,如果出現(xiàn)差距較大則進(jìn)行詳細(xì)的問題探查。
評論
圖片
表情
