<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          所謂的數(shù)據(jù)質(zhì)量

          共 3369字,需瀏覽 7分鐘

           ·

          2021-06-27 13:56

          導(dǎo)讀:隨著大數(shù)據(jù)行業(yè)的深入發(fā)展,數(shù)據(jù)質(zhì)量越來越成為一個繞不開的話題,那當(dāng)大家在聊數(shù)據(jù)質(zhì)量的時候,通常會聊什么呢?從什么是數(shù)據(jù)質(zhì)量開始。

          數(shù)據(jù)質(zhì)量:一個評估規(guī)則維度提供一種測量與管理信息和數(shù)據(jù)的方式。
          區(qū)分規(guī)則維度有助于:
          • 將維度與業(yè)務(wù)需求相匹配,并且劃分評估的先后順序;

          • 了解從每一維度的評估中能夠/不能夠得到什么;

          • 在時間和資源有限的情況下,更好地定義和管理項目計劃中的行動順序。

          數(shù)據(jù)質(zhì)量檢核主要分為以下規(guī)則維度:
          完整性(Completeness):用來描述信息的完整程度。
          唯一性(Uniqueness):用來描述數(shù)據(jù)是否存在重復(fù)記錄,沒有實體多余出現(xiàn)一次。
          有效性(Validity):用來描述模型或數(shù)據(jù)是否滿足用戶定義的條件。通常從命名、數(shù)據(jù)類型、長度、值域、取值范圍、內(nèi)容規(guī)范等方面進(jìn)行約束。
          一致性(Consistency):用來描述同一信息主體在不同的數(shù)據(jù)集中信息屬性是否相同,各實體、屬性是否符合一致性約束關(guān)系。
          準(zhǔn)確性(Accuracy):用來描述數(shù)據(jù)是否與其對應(yīng)的客觀實體的特征相一致(需要一個確定的和可訪問的權(quán)威參考源)。
          及時性(Timeless):用來描述從業(yè)務(wù)發(fā)生到對應(yīng)數(shù)據(jù)正確存儲并可正常查看的時間間隔程度,也叫數(shù)據(jù)的延時時長,數(shù)據(jù)在及時性上應(yīng)能盡可能貼合業(yè)務(wù)實際發(fā)生時點。
          可信性(credibility):用來描述數(shù)據(jù)發(fā)生是否符合客觀規(guī)律。
          每一規(guī)則維度可能需要不同的度量方法、時機(jī)和流程。這就導(dǎo)致了完成檢核評估所需要的時間、金錢和人力資源會呈現(xiàn)出差異。數(shù)據(jù)數(shù)據(jù)質(zhì)量的提升不是一蹴而就的,在清楚了解評估每一維度所需工作的情況下,選擇那些當(dāng)前較為迫切的檢核維度和規(guī)則,從易到難、由淺入深的逐步推動數(shù)據(jù)質(zhì)量的全面管理與提升。規(guī)則維度的初步評估結(jié)果是確定基線,其余評估則作為繼續(xù)檢測和信息改進(jìn)的一部分,作為業(yè)務(wù)操作流程的一部分。

          數(shù)據(jù)完整性維度大類下可細(xì)分為以下維度小類:
          非空約束:描述檢核對象是否存在數(shù)據(jù)值為空的情況。如客戶開戶時,客戶名稱是必填項,不能出現(xiàn)為空的情況。
          非空約束 非空約束比較容易理解,簡單的講就是字段不能為空,檢查方式也比較容易,只需要設(shè)定需要檢查的字段,通過 sql 查詢列值不能為空即可。將為空的數(shù)據(jù)查詢出來進(jìn)行整改。
          當(dāng)然非空約束可以通過設(shè)置非空約束的方式限制數(shù)據(jù)無法寫入數(shù)據(jù)庫,如果支持這種方式可以避免事后的數(shù)據(jù)非空檢查。

          數(shù)據(jù)唯一性維度大類下可細(xì)分為以下維度小類:
          唯一性約束:描述同一客觀實體在不同業(yè)務(wù)數(shù)據(jù)集中的信息,經(jīng)整合后是唯一的,針對目標(biāo)通常是單一主鍵或聯(lián)合主鍵,如證件類型+證件號碼+姓名相同,則其客戶編號應(yīng)唯一。
          唯一性約束 舉個簡單的例子,唯一性約束在技術(shù)上一般具備唯一的標(biāo)識字段可以判斷其唯一性,在業(yè)務(wù)上可以通過幾個關(guān)聯(lián)的業(yè)務(wù)屬性對確定唯一業(yè)務(wù)實體。若在這種情況出現(xiàn)數(shù)據(jù)重復(fù)的問題,即違反了唯一性約束。這種情況的如果是單一的業(yè)務(wù)主鍵,可以通過對主鍵分組去重的方式檢查,如果是業(yè)務(wù)聯(lián)合屬性判斷唯一實體的情況只能業(yè)務(wù)人員進(jìn)行手動檢查。

          數(shù)據(jù)有效性維度大類下可細(xì)分為以下維度小類:
          代碼值域約束:描述檢核對象的代碼值是否在對應(yīng)的代碼表內(nèi)。如業(yè)務(wù)規(guī)則定義“性別”的取值應(yīng)該是“1-未知的性別”、“2-男性”、“3-女性”、“4-未說明的性別”,如果出現(xiàn)“A”、“B”這樣的取值,則認(rèn)為“性別”的代碼值域存在問題;
          長度約束:描述檢核對象的長度是否滿足長度約束。如“金融機(jī)構(gòu)編碼”在《人民銀行金融機(jī)構(gòu)編碼規(guī)范》中規(guī)定長度為14位,如果出現(xiàn)非14位的值,則判定為不滿足長度約束,不是一個有效的“金融機(jī)構(gòu)編碼”;
          內(nèi)容規(guī)范約束:描述檢核對象的值是否按照一定的要求和規(guī)范進(jìn)行數(shù)據(jù)的錄入與存儲。如“存款賬號”應(yīng)僅含數(shù)字,如果出現(xiàn)字母或其他非法字符,則不是一個有效的“存款賬號”,不滿足內(nèi)容規(guī)范約束;
          取值范圍約束:描述檢核對象的取值是否在預(yù)定義的范圍內(nèi)。如“授信額度”取值范圍應(yīng)大于等于 0,如果出現(xiàn)小于 0 的情況,則超出了取值范圍的約束,不是一個有效的“授信額度”;
          代碼值域約束
          描述檢核對象的值是否按照一定的要求和規(guī)范進(jìn)行數(shù)據(jù)的錄入與存儲。
          例 1 : 依業(yè)務(wù)規(guī)則性別只有 “0:男” ,”1:女”,則性別字段只應(yīng)出現(xiàn)0或1。
          例 2 : 貨幣代碼 (CURCODE) 只應(yīng)有RMB或是USD值。
          數(shù)據(jù)質(zhì)量中代碼值域首先要指定企業(yè)級的統(tǒng)一編碼表,然后按照對照關(guān)系進(jìn)行 etl 轉(zhuǎn)換,至于出報告只需要通過 sql 查詢不再范圍內(nèi)的數(shù)值就可以了。
          長度約束
          描述檢核對象的長度是否滿足長度約束。
          例如身份證號是 18 位。
          長度約束可以通過建表時指定字符長度去限制,如果業(yè)務(wù)系統(tǒng)最初沒有做限制,只能通過 sql 判斷長度的方式獲取異常值再進(jìn)行處理。
          內(nèi)容規(guī)范約束
          描述檢核對象的值是否按照一定的要求和規(guī)范進(jìn)行數(shù)據(jù)的錄入與存儲。
          例如:余額或者日期等一般都會按照固定類型存儲,如果最初設(shè)計為字符型后續(xù)應(yīng)按照對應(yīng)類型調(diào)整。
          首先這種情況最好一開始就建立好統(tǒng)一規(guī)范,按照業(yè)務(wù)含義去指定技術(shù)類型。如果最初做的不好,可以通過類型進(jìn)行數(shù)據(jù)探查,對數(shù)據(jù)統(tǒng)一格式化。
          取值范圍約束
          描述檢核對象的取值是否在預(yù)定義的范圍內(nèi)。
          例如:余額不能為負(fù)數(shù),日期不能為負(fù)數(shù)等等。
          如果業(yè)務(wù)初始沒有做限制,只能通過 sql 去對數(shù)據(jù)過濾查詢,對有問題數(shù)據(jù)集中 etl 處理。

          數(shù)據(jù)一致性維度大類下可細(xì)分為以下維度小類:
          等值一致性依賴約束:描述檢核對象之間數(shù)據(jù)取值的約束規(guī)則。一個檢核對象數(shù)據(jù)取值必須與另一個或多個檢核對象在一定規(guī)則下相等。
          存在一致性依賴約束:描述檢核對象之間數(shù)據(jù)值存在關(guān)系的約束規(guī)則。一個檢核對象的數(shù)據(jù)值必須在另一個檢核對象滿足某一條件時存在。
          邏輯一致性依賴約束:描述檢核對象之間數(shù)據(jù)值邏輯關(guān)系的約束規(guī)則。一個檢核對象上的數(shù)據(jù)值必須與另一個檢核對象的數(shù)據(jù)值滿足某種邏輯關(guān)系(如大于、小于等)。
          等值一致性依賴約束 一般指外鍵關(guān)聯(lián)的場景。例如:保單表,理賠表的保單號存在保單主表,同一張表,兩個字段之間的關(guān)聯(lián)關(guān)系。
          存在一致性依賴約束 主要是強(qiáng)調(diào)業(yè)務(wù)的關(guān)聯(lián)性,一個狀態(tài)發(fā)生了則某個值一定會如何。
          例如:投保狀態(tài)為已投保,則投保日期不應(yīng)為空;
          邏輯一致性依賴約束 主要強(qiáng)調(diào)的是字段間的互相約束關(guān)系。
          例如:投保開始時間小于等于投保結(jié)束時間

          數(shù)據(jù)準(zhǔn)確性主要是指取值的準(zhǔn)確性,描述該檢核對象是否與其對應(yīng)的客觀實體的特征相一致。
          例如:投保人的性別代碼為 0-女性,雖然滿足代碼值域約束,但卻不滿足取值準(zhǔn)確性約束,因為該人為男性,其性別代碼應(yīng)為 1-男性
          再如:國際保函業(yè)務(wù)的手續(xù)費應(yīng)錄入為國際擔(dān)保手續(xù)費收入,卻錄入成國內(nèi)擔(dān)保手續(xù)費收入
          準(zhǔn)確性要求不僅數(shù)據(jù)的取值范圍和內(nèi)容規(guī)范滿足有效性的要求,其值也是客觀真實世界的數(shù)據(jù)。由此可見,有效的數(shù)據(jù)未必是準(zhǔn)確的,反之成立。
          準(zhǔn)確性通常需要業(yè)務(wù)人員或其他當(dāng)事人手工核查。
          對待這種情況,數(shù)據(jù)質(zhì)量規(guī)則沒辦法直接統(tǒng)一處理,只能通過即使查詢的方式對數(shù)據(jù)結(jié)果進(jìn)行詳細(xì)核查。

          及時性約束:描述檢核數(shù)據(jù)能否及時反映其對應(yīng)的實際業(yè)務(wù)的時點狀態(tài)。
          例如:系統(tǒng)中貸款五級分類的分類比實際中的延遲幾天變化;再如理財業(yè)務(wù)在理財系統(tǒng)中是成功狀態(tài),但在核心系統(tǒng)中卻因通信的原因而沒有入賬。
          及時性由于多個系統(tǒng)、通信等原因而造成,通常需要業(yè)務(wù)人員或系統(tǒng)人員手工核查。
          一般來說數(shù)據(jù)同步都是基于業(yè)務(wù)系統(tǒng)的落表技術(shù)字段(比如:CREATE_DT),而真是業(yè)務(wù)發(fā)生的時間可能與該字段存在時間間隔。可以通過簡單的sql對兩個時間比較,判斷數(shù)據(jù)的及時性是否符合需求。

          數(shù)據(jù)可信性約束:描述再數(shù)據(jù)同步中每日/月增量數(shù)據(jù)是否符合理論的經(jīng)驗值。
          例如:保單數(shù)據(jù)的每日分區(qū)數(shù)據(jù)較前日一般有 10% 增長,突然數(shù)據(jù)增長變?yōu)?00%,這種情況有可能時數(shù)據(jù)同步出現(xiàn)問題。
          再如:每月的營收總額一般都按一定規(guī)律上漲,突然數(shù)據(jù)波動較大則一般都可能出現(xiàn)問題。
          可信性要求數(shù)據(jù)的總量波動符合基本客觀規(guī)律,一般通過對 7,15,30 日數(shù)據(jù)進(jìn)行比較,如果出現(xiàn)差距較大則進(jìn)行詳細(xì)的問題探查。
          瀏覽 63
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操逼片毛片 | 欧美逼网 | 国产美女在线精品 | 黄色成人视频在线免费观看 | 在线不卡视频 |