<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何提升數(shù)據(jù)質(zhì)量?(附實(shí)戰(zhàn)文檔)

          共 2044字,需瀏覽 5分鐘

           ·

          2021-12-12 03:06

          一、前言


          數(shù)據(jù)質(zhì)量保障的關(guān)鍵的步驟是數(shù)據(jù)質(zhì)量規(guī)則、數(shù)據(jù)質(zhì)量指標(biāo),數(shù)據(jù)探查,數(shù)據(jù)保障機(jī)制和數(shù)據(jù)清洗,不管是在做數(shù)據(jù)質(zhì)量或者打算做數(shù)據(jù)質(zhì)量工作的朋友都可以詳細(xì)研究下,應(yīng)該會有幫助。

          ?

          本篇包含數(shù)質(zhì)量基礎(chǔ),數(shù)據(jù)質(zhì)量規(guī)則、指標(biāo)(附模板下載),數(shù)據(jù)探查(附模板下載),數(shù)據(jù)保障機(jī)制,數(shù)據(jù)清洗(附模板下載),常見質(zhì)量問題(附下載文檔)

          ?


          二、數(shù)據(jù)質(zhì)量基礎(chǔ)


          數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對數(shù)據(jù)從計(jì)劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

          ?

          數(shù)據(jù)質(zhì)量最關(guān)鍵的6個(gè)維度:

          1)完整性:指數(shù)據(jù)在錄入、傳遞過程中無缺失和遺漏,包括實(shí)體完整、屬性完整、記錄完整和字段值完整四個(gè)方面。

          2)及時(shí)性:指及時(shí)記錄和傳遞相關(guān)數(shù)據(jù),滿足業(yè)務(wù)對信息獲取的時(shí)間要求。

          3)有效性:指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和業(yè)務(wù)定義的要求。

          4)一致性:指遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)記錄和傳遞數(shù)據(jù)和信息,主要體現(xiàn)在數(shù)據(jù)

          記錄是否規(guī)范、數(shù)據(jù)是否符合邏輯。

          5)唯一性:指同一數(shù)據(jù)只能有唯一的標(biāo)識符。

          6)準(zhǔn)確性:指真實(shí)地、準(zhǔn)確地記錄原始數(shù)據(jù),無虛假數(shù)據(jù)及信息。

          ?

          三、數(shù)據(jù)質(zhì)量規(guī)則,數(shù)據(jù)質(zhì)量指標(biāo)


          數(shù)據(jù)質(zhì)量規(guī)則是數(shù)據(jù)質(zhì)量最核心的內(nèi)容,數(shù)據(jù)質(zhì)量規(guī)則和指標(biāo)設(shè)計(jì)的全與不全,是否合理,決定了數(shù)據(jù)的質(zhì)量的好壞。下面是我根據(jù)華為數(shù)據(jù)之道和工業(yè)企業(yè)數(shù)字化轉(zhuǎn)型之道加上我的經(jīng)驗(yàn)綜合出來的一個(gè)版本,如果這些規(guī)則都用到位,數(shù)據(jù)質(zhì)量應(yīng)該是有保障的,由于列比較多,完整版請?jiān)诠娞柅@取。

          ?

          對象質(zhì)量特性規(guī)則類型指標(biāo)
          單列完整性不可為空類空值率
          有效性?語法約束類1-樣本記錄異常值比率
          有效性?格式規(guī)范類
          有效性?長度約束類
          有效性?值域約束類
          準(zhǔn)確性事實(shí)參照標(biāo)準(zhǔn)類樣本記錄中真實(shí)記錄的比率
          跨列完整性應(yīng)為空值類
          及時(shí)性入庫及時(shí)類滿足時(shí)間要求的樣本記錄的比率
          一致性單表等值一致約束類
          一致性單表邏輯一致約束類
          跨行唯一性?記錄唯一類
          一致性層級結(jié)構(gòu)一致約束
          跨表一致性外關(guān)聯(lián)約束類外鍵無對應(yīng)主鍵的樣本記錄比率
          一致性跨表等值一致約束類
          一致性跨表邏輯一致約束類
          跨系統(tǒng)一致性跨系統(tǒng)記錄一致約束類樣本記錄與其它系統(tǒng)的匹配率
          及時(shí)性入庫及時(shí)類滿足時(shí)間要求的樣本記錄的比率



          四、數(shù)據(jù)探查
          ?


          數(shù)據(jù)探查是數(shù)據(jù)質(zhì)量保障非常重要要的一步,他是設(shè)計(jì)的基礎(chǔ),排除客觀原因,好的效率和質(zhì)量是可以通過設(shè)計(jì)來提升的,如果沒有數(shù)據(jù)探查,一般情況下數(shù)據(jù)類項(xiàng)目都會反復(fù)多次,有可能影響人員變動,交接困難,維護(hù)困難,項(xiàng)目完成周期長等問題。

          下面只是其中幾個(gè)方面的數(shù)據(jù)探查,供參考,具體案例,請?jiān)诠娞柅@取。

          探查出的常見問題和分類請?jiān)诠娞柅@取。

          ?

          探查項(xiàng)

          分析意義

          分析點(diǎn)

          分析點(diǎn)解釋

          完整性分析

          保證分析的可靠性

          空值記錄數(shù)

          探查字段在探查時(shí)間點(diǎn)沒有值的記錄條數(shù)

          總記錄數(shù)

          探查字段在探查時(shí)間點(diǎn)總記錄數(shù)

          缺失率

          探查字段在探查時(shí)間點(diǎn)缺失信息記錄數(shù)占總記錄數(shù)的比重

          空值預(yù)警

          探查字段在探查時(shí)間點(diǎn)缺失率高于10%則提出預(yù)警

          主鍵唯一性

          探查主鍵字段在探查時(shí)間點(diǎn)是否有重復(fù)記錄

          值域分析

          分析是否有異常數(shù)據(jù)

          最大值

          數(shù)值型,日期型字段在探查時(shí)間點(diǎn)的最大值

          最小值

          數(shù)值型,日期型字段在探查時(shí)間點(diǎn)的最小值

          枚舉值分析

          列出檢測字段所有的枚舉值

          枚舉范圍

          屬性字段的枚舉值定義

          枚舉實(shí)際范圍值

          屬性字段在探查時(shí)間點(diǎn)實(shí)際的枚舉值及其分布

          異常比例

          探查時(shí)間點(diǎn),不在枚舉定義范圍的枚舉值占總記錄數(shù)的比重

          邏輯性探查


          業(yè)務(wù)邏輯點(diǎn)

          根據(jù)業(yè)務(wù)邏輯探查字段是否遵循業(yè)務(wù)邏輯

          ?

          數(shù)據(jù)質(zhì)量保障機(jī)制


          數(shù)據(jù)質(zhì)量持續(xù)提升就要靠保障機(jī)制了,只有自動化,常態(tài)化,持續(xù)監(jiān)控?cái)?shù)據(jù)質(zhì)量,才能不斷提升數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量保障主要有如下幾個(gè)關(guān)鍵步驟:

          設(shè)計(jì)量化指標(biāo)—>設(shè)計(jì)質(zhì)量打分細(xì)則->設(shè)計(jì)分值考核->異常數(shù)據(jù)監(jiān)控->指標(biāo)展現(xiàn)->按規(guī)則推送提醒相關(guān)負(fù)責(zé)人

          例:空值率>5%,記1分,每日空值率指標(biāo)預(yù)警,每日全部門通報(bào),影響年底考核。

          此部分需要根據(jù)公司實(shí)際情況詳細(xì)設(shè)計(jì)。


          、數(shù)據(jù)清洗


          數(shù)據(jù)清洗(Data cleaning)– 對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。主要有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類;

          ?

          如果前端控制不到位,又想有高質(zhì)量的數(shù)據(jù),只能靠數(shù)據(jù)清洗,數(shù)據(jù)清洗是存量數(shù)據(jù)質(zhì)量提升的關(guān)鍵步驟,數(shù)據(jù)清洗后的數(shù)據(jù)可以更好的支持?jǐn)?shù)據(jù)分析,數(shù)據(jù)洞見。

          ?參考模板在公眾號獲取。

          ?

          七、結(jié)語


          上面是我對數(shù)據(jù)質(zhì)量的一些理解和實(shí)戰(zhàn)經(jīng)驗(yàn),如果對您有幫助,煩請關(guān)注、轉(zhuǎn)發(fā),如有任何問題,請留言或加我微信入群,我們一起探討,一起持續(xù)構(gòu)建數(shù)據(jù)治理體系。

          ?

          如需獲取資料,請?jiān)诠娞柡笈_回復(fù)數(shù)據(jù)質(zhì)量”獲取。


          瀏覽 30
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷丁香花激情 | 黄色日本视频 | 一级特黄高清 | 欧美另类激情 | 无码1级|