中通數(shù)據(jù)架構(gòu)治理實(shí)踐!
共 6179字,需瀏覽 13分鐘
·
2024-05-16 18:00
一、背景
為什么要做數(shù)據(jù)架構(gòu)治理?數(shù)字轉(zhuǎn)型,治理先行。
數(shù)字化的應(yīng)用是整個(gè)行業(yè)高速發(fā)展的源動(dòng)力之一,快遞行業(yè)日新月異,規(guī)模龐大,數(shù)字化能夠使管理升級(jí),提高整個(gè)內(nèi)部的運(yùn)營效率,降低相關(guān)的運(yùn)營成本。在打破數(shù)據(jù)孤島,鏈接用戶跟快遞員、網(wǎng)點(diǎn)、商家等角色的過程中,數(shù)字化都發(fā)揮著很大的作用。簡單來說,數(shù)字化就是一道門,你被關(guān)在門外面,那未來很可能就會(huì)被淘汰。而數(shù)據(jù)架構(gòu)治理,就是為中通數(shù)字化轉(zhuǎn)型打下了基礎(chǔ)。
二、現(xiàn)狀
中通目前有500+的產(chǎn)品,這些持久化在存儲(chǔ)上就是有100W+的數(shù)據(jù)庫表。并且業(yè)務(wù)量以每年20%-30%的速度高速增長。各業(yè)務(wù)部門、開發(fā)團(tuán)隊(duì)的數(shù)據(jù)標(biāo)準(zhǔn)不一致,在數(shù)據(jù)打通和整合過程中會(huì)出現(xiàn)很多問題。所以就必須建立數(shù)據(jù)標(biāo)準(zhǔn)和推動(dòng)數(shù)據(jù)模型的落地來對(duì)數(shù)據(jù)未來狀態(tài)的規(guī)范,包括對(duì)數(shù)據(jù)的名稱、含義、結(jié)構(gòu)、取值及數(shù)據(jù)間關(guān)系的規(guī)范,以此對(duì)數(shù)據(jù)庫表結(jié)構(gòu)、字段定義進(jìn)行指導(dǎo)約束。
公司目前沒有平臺(tái)來做數(shù)據(jù)分類、敏感數(shù)據(jù)的標(biāo)記,數(shù)據(jù)以什么形式對(duì)外提供出去不明確 ,什么數(shù)據(jù)可以對(duì)外暴露不明確 。一旦隱私數(shù)據(jù)泄露,對(duì)業(yè)務(wù)的影響非常大,甚至能影響整個(gè)業(yè)務(wù)的生死。同時(shí)對(duì)數(shù)據(jù)文件、圖片、文件、音視頻等類型數(shù)據(jù)的定期的備份恢復(fù)策略也沒有制定,一旦誤刪除可能會(huì)導(dǎo)致數(shù)據(jù)的永久丟失。
由于前期的快速發(fā)展,難免會(huì)遺留一下歷史的原因,比如數(shù)據(jù)的上下游依賴公司就很難去識(shí)別到,隨著業(yè)務(wù)的變動(dòng)很容易出現(xiàn)上游發(fā)生變更,但下游卻不知道的問題。開發(fā)的數(shù)據(jù)對(duì)象,都是通過口口相傳。模型梳理難以完成,導(dǎo)致在數(shù)據(jù)開發(fā)和數(shù)據(jù)管理過程中都會(huì)遇到一些效率低的問題,開發(fā)不清楚數(shù)據(jù)的上下游是如何使用的。
缺乏跨團(tuán)隊(duì)的數(shù)據(jù)工程流程,經(jīng)常會(huì)導(dǎo)致“掛羊頭賣狗肉”的情況,比如字段明明是網(wǎng)點(diǎn)名稱,數(shù)據(jù)庫里卻是網(wǎng)點(diǎn)名稱和網(wǎng)點(diǎn)編號(hào)都有存儲(chǔ)在這一列,導(dǎo)致各個(gè)團(tuán)隊(duì)的成熟度不同,團(tuán)隊(duì)間沒有一致的數(shù)據(jù)質(zhì)量定義或指標(biāo)。
三、怎么做數(shù)據(jù)架構(gòu)治理
頂層規(guī)劃設(shè)計(jì)的方法在五到十年前比較盛行,多源于國外咨詢公司基于國際理論(如DAMA-DMBOK)結(jié)合自身實(shí)踐積累形成的方法論,用這些理論框架為企業(yè)進(jìn)行全面的現(xiàn)狀調(diào)研,基于此再進(jìn)行數(shù)據(jù)治理組織、數(shù)據(jù)治理工作內(nèi)容/流程/制度、數(shù)據(jù)治理平臺(tái)及未來建設(shè)路徑的規(guī)劃。其交付物通常是厚厚的調(diào)研報(bào)告、設(shè)計(jì)報(bào)告和PPT,項(xiàng)目周期在半年甚至更長。頂層規(guī)劃設(shè)計(jì)的方法好處在于有理論依據(jù),體系完整,能夠幫助客戶達(dá)成對(duì)數(shù)據(jù)治理全貌的理解和共識(shí),有利于推動(dòng)后續(xù)工作開展。但其也有許多不足,如過于理論化與企業(yè)實(shí)際情況結(jié)合不緊,導(dǎo)致管理組織和流程都無法落地;漫長的項(xiàng)目周期中,只部分解決了數(shù)據(jù)治理管理能力建設(shè)的問題,但并未解決實(shí)際數(shù)據(jù)問題、沒有提升數(shù)據(jù)質(zhì)量甚至業(yè)務(wù)質(zhì)量、數(shù)據(jù)價(jià)值也沒有顯著發(fā)揮出來。因此,成果也看起來很厚重,但實(shí)效并不大。
從一開始我們也想過自上而下的這樣推動(dòng)數(shù)據(jù)治理,但是就如上面所述,項(xiàng)目周期太長,同時(shí)實(shí)際效果也不一定很好。因此我們結(jié)合我們公司的實(shí)際情況,先治理關(guān)鍵流程:數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)模型管理、數(shù)據(jù)上下游鏈路管理、敏感數(shù)據(jù)管理以及數(shù)據(jù)的全生命周期管理。同時(shí)連同業(yè)務(wù)部門,按照產(chǎn)品線進(jìn)行劃分,小范圍內(nèi)快速驗(yàn)證和迭代數(shù)據(jù)治理相關(guān)的方法、流程、規(guī)范,然后再復(fù)制推廣。總體的思路就是:定規(guī)范,建平臺(tái),建體系。
四、規(guī)范
結(jié)合公司的現(xiàn)狀,我們對(duì)數(shù)據(jù)的全生命流程進(jìn)行梳理,針對(duì)關(guān)鍵節(jié)點(diǎn)我們梳理出了:數(shù)據(jù)存儲(chǔ)選型規(guī)范、數(shù)據(jù)建模管理規(guī)范、數(shù)據(jù)分發(fā)管理規(guī)范、數(shù)據(jù)生命周期管理規(guī)范。
1、數(shù)據(jù)存儲(chǔ)選型規(guī)范
架構(gòu)師在工作中經(jīng)常會(huì)遇到數(shù)據(jù)庫存儲(chǔ)選型的問題,而市面上數(shù)據(jù)庫產(chǎn)品眾多,往往會(huì)無從下手,甚至有時(shí)候從業(yè)務(wù)開發(fā)到上線運(yùn)維過程中會(huì)多次更換底層數(shù)據(jù)庫,給整個(gè)研發(fā)中心帶來不必要的額外工作,數(shù)據(jù)存儲(chǔ)選型對(duì)于一個(gè)給定的應(yīng)用環(huán)境,針對(duì)公司現(xiàn)有業(yè)務(wù)背景和整個(gè)DBA團(tuán)隊(duì)技術(shù)儲(chǔ)備,選取最優(yōu)的數(shù)據(jù)庫類型,建立數(shù)據(jù)庫及其應(yīng)用系統(tǒng),使之能夠有效地存儲(chǔ)數(shù)據(jù),滿足各種用戶的應(yīng)用需求。
2、數(shù)據(jù)建模管理規(guī)范
針對(duì)數(shù)據(jù)的開發(fā)設(shè)計(jì)階段,我們將數(shù)據(jù)對(duì)象抽象成邏輯模型和物理模型,同時(shí)針對(duì)表、字段、數(shù)據(jù)庫的命名和設(shè)計(jì)制定了一系列的規(guī)范并前置到邏輯模型設(shè)計(jì)階段,同時(shí)針對(duì)持久化到數(shù)據(jù)庫上進(jìn)行流程管控。
數(shù)據(jù)建模總體流程:
3、數(shù)據(jù)分發(fā)管理規(guī)范
對(duì)于現(xiàn)在公司的數(shù)據(jù)實(shí)際情況,數(shù)據(jù)分發(fā)應(yīng)該嚴(yán)格按照分發(fā)數(shù)據(jù)量進(jìn)行分發(fā)類型選擇,并且除了SQL查詢方式之外,都應(yīng)使用中通數(shù)據(jù)分發(fā)平臺(tái)ZDTP進(jìn)行數(shù)據(jù)分發(fā),并且通過訂閱方式對(duì)數(shù)據(jù)下發(fā)至各個(gè)合規(guī)終端,同時(shí)通過可配置的軟件或工具對(duì)源數(shù)據(jù)進(jìn)行收集、處理以達(dá)到符合中通內(nèi)部或合規(guī)的外部第三方生產(chǎn)需求的操作,以上所有的操作均有流程進(jìn)行管控。
4、數(shù)據(jù)生命周期管理規(guī)范
結(jié)合公司實(shí)際,針對(duì)科技中心所管轄的所有數(shù)據(jù),文件,圖片,視頻,錄音等存儲(chǔ)。將數(shù)據(jù)進(jìn)行分級(jí)分類,按照對(duì)應(yīng)的級(jí)別的不同制定不同的生命周期管理策略。
數(shù)據(jù)敏感級(jí)別屬于數(shù)據(jù)安全領(lǐng)域,敏感等級(jí)不同的數(shù)據(jù)對(duì)內(nèi)使用時(shí)受到的保護(hù)策略不同,對(duì)外共享開放的程度也不同。數(shù)據(jù)管理者負(fù)責(zé)制定其領(lǐng)域內(nèi)數(shù)據(jù)敏感等級(jí)的劃分規(guī)則,并制定和發(fā)布本部門的數(shù)據(jù)敏感等級(jí)目錄。
數(shù)據(jù)分類治理是實(shí)現(xiàn)不同部門之間數(shù)據(jù)共享互認(rèn)的目的。我們通過分類標(biāo)識(shí),將分散的、存儲(chǔ)在不同系統(tǒng)的數(shù)據(jù)內(nèi)容,打破數(shù)據(jù)的孤島,進(jìn)行有效匹配,指定不同的數(shù)據(jù)敏感級(jí)別,理清各方的數(shù)據(jù)權(quán)限,達(dá)到數(shù)據(jù)安全治理的目的。
根據(jù)數(shù)據(jù)級(jí)別的不一樣,我們將制定不一樣的數(shù)據(jù)保留策略:
五、平臺(tái)
為了保障上述規(guī)范的落地,我們連同技術(shù)平臺(tái)團(tuán)隊(duì),建設(shè)了數(shù)據(jù)建模平臺(tái),將建模平臺(tái)放入統(tǒng)一的運(yùn)管平臺(tái),為用戶提供一站式的開發(fā)服務(wù)。
中通數(shù)據(jù)建模平臺(tái)是由中通科技完全自主開發(fā)的擁有知識(shí)產(chǎn)權(quán)的跨平臺(tái)數(shù)據(jù)庫建模工具,相較于傳統(tǒng)的PowerDesigner之類的C/S架構(gòu)的建模工具,我們采用更加輕便的B/S的架構(gòu)設(shè)計(jì),更符合公司的產(chǎn)品規(guī)劃。數(shù)據(jù)建模平臺(tái)不僅能夠按照公司產(chǎn)品粒度進(jìn)行mysql等傳統(tǒng)關(guān)系型數(shù)據(jù)庫的對(duì)接,還可以提供國產(chǎn)數(shù)據(jù)庫如TIDB的對(duì)接,并且我們將將應(yīng)用對(duì)應(yīng)的物理庫抽象成一個(gè)邏輯庫,用戶可以制定環(huán)境生成物理模型。并且按照產(chǎn)品線進(jìn)行劃分,我們提供私有詞典和標(biāo)準(zhǔn)詞典供用戶進(jìn)行標(biāo)準(zhǔn)字段的引用。私有詞典是在本產(chǎn)品線引用的標(biāo)準(zhǔn)字段,標(biāo)準(zhǔn)詞典是中心藏經(jīng)閣維護(hù)的一系列標(biāo)準(zhǔn)的基礎(chǔ)數(shù)據(jù)供給所有產(chǎn)品線進(jìn)行引用。在模型設(shè)計(jì)階段我們提供可視化的模型設(shè)計(jì)能力,可以可視化的新增、編輯、刪除模型,并針對(duì)字段順序可進(jìn)行拖拽排序,為方便模型的管理,我們還提供了模型的自定義分組。并且在設(shè)計(jì)階段我們就將數(shù)據(jù)的分類和敏感數(shù)據(jù)的標(biāo)記要求在模型中體現(xiàn)。
針對(duì)于分庫分表的模型,我們將按照分片的規(guī)則將物理存儲(chǔ)上的多個(gè)分表在建模平臺(tái)上抽象成一個(gè)模型。并且內(nèi)置了mod和hash算法,可以按照用戶配置的分表設(shè)置,快速的生成分庫分表/分表的模型。
同時(shí)針對(duì)模型的變更,我們提供了版本管控的功能,平臺(tái)會(huì)記錄模型的各個(gè)版本的元數(shù)據(jù)信息,并提供不同環(huán)境的模型快速部署和回滾的服務(wù)。并且模型的所有的變更我們都和IDB進(jìn)行了打通,每次應(yīng)用都會(huì)生成IDB的工單進(jìn)行快速部署。
相較于傳統(tǒng)的C/S建模工具,我們也提供了web端的數(shù)據(jù)模型關(guān)系操作工作臺(tái),用戶進(jìn)行全局的數(shù)據(jù)模型的瀏覽,并支持放大縮小以及導(dǎo)出。可以任意拖拽模型的位置進(jìn)行保存,并且可以任意的進(jìn)行模型之間的關(guān)系的維護(hù)。針對(duì)于初始化模型較多的產(chǎn)品我們還有搜索聚焦以及自適應(yīng)布局功能。
同時(shí)針對(duì)大家呼聲較高的數(shù)據(jù)庫資源使用情況展示,我們本次將物理庫的一些資源使用情況進(jìn)行了展示,目前將數(shù)據(jù)庫的配置、狀態(tài)、QPS、TPS、連接數(shù)、最大連接數(shù)。物理表的表大小、表大小的變化趨勢(shì)、寫入、更新、刪除的操作統(tǒng)計(jì)。
六、未來的計(jì)劃
推薦閱讀:
被 GPT-4 Plus 賬號(hào)價(jià)格勸退了!
長沙再現(xiàn)逆天技術(shù)團(tuán)隊(duì),完美復(fù)現(xiàn)SORA技術(shù),一夜之間擁有李廠長的能力
世界的真實(shí)格局分析,地球人類社會(huì)底層運(yùn)行原理
不是你需要中臺(tái),而是一名合格的架構(gòu)師(附各大廠中臺(tái)建設(shè)PPT)
長沙最大(中國領(lǐng)先)的創(chuàng)業(yè)俱樂部成立
59頁P(yáng)PT|2024中國AI Agent行業(yè)研究報(bào)告(附下載)
論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?
