數(shù)據(jù)治理助力區(qū)塊鏈邁向大數(shù)據(jù)時代 |《超話區(qū)塊鏈》回顧

區(qū)塊鏈數(shù)據(jù)治理的背景及存在的問題
數(shù)據(jù)治理通過具體機制來保證數(shù)據(jù)的完整性和安全性,包括質(zhì)量、效率和安全方面的管理。數(shù)據(jù)治理不是靜止的狀態(tài),而是可持續(xù)的過程。
隨著區(qū)塊鏈逐漸滲透入人們的日常生活,其在數(shù)字政務(wù)、金融服務(wù)、社會治理、公益環(huán)保、司法仲裁等領(lǐng)域都有應(yīng)用。
這些領(lǐng)域的數(shù)據(jù)上鏈后,需要進行分析處理,挖掘價值。鏈上和鏈下的數(shù)據(jù)經(jīng)過采集之后進入數(shù)據(jù)湖,這時數(shù)據(jù)湖可以為上層應(yīng)用提供數(shù)據(jù)支撐,數(shù)據(jù)常常應(yīng)用于業(yè)務(wù)分析、大屏展示、監(jiān)管審計、業(yè)務(wù)報表等,這些功能又為區(qū)塊鏈應(yīng)用提供了能力支撐。通過這樣的循環(huán),數(shù)據(jù)在數(shù)據(jù)湖周圍“流動”起來。
節(jié)點存儲成本高,隨著節(jié)點上數(shù)據(jù)量的不斷增加,節(jié)點存儲成本成倍增長; 數(shù)據(jù)同步時間長,當(dāng)節(jié)點數(shù)據(jù)量非常大時,新節(jié)點同步數(shù)據(jù)周期長,無法快速加入網(wǎng)絡(luò); 節(jié)點查詢性能低,交易執(zhí)行效率隨著節(jié)點上業(yè)務(wù)和數(shù)據(jù)量的增加逐步降低; 無法進行大數(shù)據(jù)處理,由于區(qū)塊鏈特定的鏈?zhǔn)酱鎯Y(jié)構(gòu),導(dǎo)致鏈上無法進行大數(shù)據(jù)處理和復(fù)雜查詢; 數(shù)據(jù)導(dǎo)出開發(fā)成本高,業(yè)務(wù)分析需要按照智能合約對數(shù)據(jù)進行解析,開發(fā)成本周期較長; 無法復(fù)用可擴展性差,當(dāng)業(yè)務(wù)發(fā)生變動,鏈上數(shù)據(jù)的解析和導(dǎo)出也需重新開發(fā)。
隨著區(qū)塊鏈業(yè)務(wù)的不斷發(fā)展,企業(yè)運營的精細(xì)化程度不斷提高,區(qū)塊鏈數(shù)據(jù)對企業(yè)的影響越來越大。企業(yè)在利用這些資產(chǎn)創(chuàng)造價值時,對數(shù)據(jù)的質(zhì)量、效率和安全的要求也在不斷提高。
數(shù)據(jù)治理組件技術(shù)架構(gòu)及方案優(yōu)勢
數(shù)據(jù)治理組件技術(shù)架構(gòu)圍繞區(qū)塊鏈底層展開,分為運維組件、開發(fā)及業(yè)務(wù)組件兩層,共同實現(xiàn)對區(qū)塊鏈數(shù)據(jù)的治理。
運維層包含數(shù)據(jù)倉庫(Data-Stash),負(fù)責(zé)對數(shù)據(jù)進行擴容、備份、裁剪以及同步。開發(fā)及業(yè)務(wù)組件主要包含數(shù)據(jù)導(dǎo)出(Data-Export)和業(yè)務(wù)對賬(Data-Reconcile)。其中數(shù)據(jù)導(dǎo)出組件主要解決區(qū)塊鏈大數(shù)據(jù)復(fù)雜查詢、分析和處理問題;業(yè)務(wù)對賬組件主要提供基于區(qū)塊鏈數(shù)據(jù)的對賬解決方案。
數(shù)據(jù)治理組件解決方案具有如下優(yōu)勢:
第一,性能高效可實時同步去查詢,它提供全量數(shù)據(jù)備份的同時支持節(jié)點數(shù)據(jù)的高效同步,數(shù)據(jù)導(dǎo)出提供高效實時查詢能力并支持多線程、多活處理,提升處理性能;
第二,支持不同存儲介質(zhì)可擴展,數(shù)據(jù)存儲支持MySQL、ES等不同的存儲介質(zhì)并在底層提供可擴展的協(xié)議接口確保可擴展性;
第三,數(shù)據(jù)服務(wù)安全穩(wěn)定可信可證明,基于多個節(jié)點備份數(shù)據(jù),確保數(shù)據(jù)的完整性;
第四,分布式存儲支持大數(shù)據(jù)分析查詢,數(shù)據(jù)治理組件基于智能合約將鏈上數(shù)據(jù)導(dǎo)出到便于大數(shù)據(jù)分析和查詢的存儲介質(zhì)中,并提供通用化查詢能力,支持分庫分表和主從備份;
第五,低代碼開發(fā)幾乎零成本,組件主要面向開發(fā)者,我們盡可能減少代碼的開發(fā),只要經(jīng)過簡單配置就可以完成組件的基本應(yīng)用;
第六,通用化設(shè)計確保方案可復(fù)用,組件在設(shè)計或者是開發(fā)的時候會盡可能兼顧通用性,無需針對不同的場景做重復(fù)開發(fā)。同時,我們也會提供一些個性化配置。
數(shù)據(jù)治理組件應(yīng)用場景及組件介紹
數(shù)據(jù)治理組件優(yōu)勢發(fā)揮與場景運用息息相關(guān)。
在運維管理場景中針對前端數(shù)據(jù)服務(wù),能夠?qū)崿F(xiàn)全量備份、數(shù)據(jù)裁剪、快速同步、冷數(shù)據(jù)查詢;在業(yè)務(wù)功能場景中主要涉及數(shù)據(jù)分析、大盤展示、監(jiān)管審計、業(yè)務(wù)報表;在行業(yè)應(yīng)用場景中主要包括數(shù)字政務(wù)、金融服務(wù)、社會治理、司法仲裁等。
以下是關(guān)于數(shù)據(jù)治理組件的具體介紹。
Data-Stash 數(shù)據(jù)倉庫組件
Data-Stash是基于FISCO BCOS的數(shù)據(jù)倉庫組件,主要提供區(qū)塊鏈數(shù)據(jù)的擴容、備份和裁剪的能力。它通過解析節(jié)點的Binlog日志生成節(jié)點的備份,從而使節(jié)點能夠?qū)崿F(xiàn)冷熱數(shù)據(jù)分離,提供裁剪和數(shù)據(jù)快速同步的能力。
Data-Stash通過對節(jié)點Binlog的分析,實現(xiàn)了節(jié)點賬本的全量備份、多維度賬本校驗、備份數(shù)據(jù)可信存儲以及斷點續(xù)傳等能力。
Data-Stash主要具備以下功能特性:
(1)冷熱數(shù)據(jù)分離
隨著時間的推移,節(jié)點會積累越來越多的賬本數(shù)據(jù)。如果節(jié)點體積不受控制地增長,最終會使節(jié)點服務(wù)器侵蝕殆盡,造成不良影響。
對此,可以通過數(shù)據(jù)倉庫服務(wù)來實現(xiàn)數(shù)據(jù)的分離。啟動Data-Stash服務(wù),并將節(jié)點Binlog導(dǎo)入到數(shù)據(jù)庫中,實現(xiàn)數(shù)據(jù)備份。開發(fā)者可以對鏈上數(shù)據(jù)進行劃分,刪除不常用數(shù)據(jù),保留近期數(shù)據(jù)。為了讓節(jié)點運行不受影響,用戶需要保證節(jié)點啟用。
(2)實現(xiàn)節(jié)點高效遷移
在區(qū)塊鏈業(yè)務(wù)運行時,常會出現(xiàn)節(jié)點擴容或升級需求。例如,服務(wù)器因為某些故障需要下線或者更換磁盤,我們可以通過Data-Stash對節(jié)點的數(shù)據(jù)進行快速同步。
(3)監(jiān)管、審計、追溯
對監(jiān)管方而言,需要保證賬本數(shù)據(jù)的完整性與可查詢性,由于區(qū)塊鏈自身的賬本數(shù)據(jù)庫可能無法滿足需求,此時我們可以通過數(shù)據(jù)倉庫組件進行完整的備份;我們可以采用關(guān)系型數(shù)據(jù)庫以便更好地查詢數(shù)據(jù);為了更好地滿足監(jiān)管的需求,我們采用多維度校驗機制來防止節(jié)點的惡意篡改。
Data-Export數(shù)據(jù)導(dǎo)出組件
Data-Export也是基于FISCO BCOS平臺的數(shù)據(jù)導(dǎo)出工具,使用者幾乎不需要編碼,只要簡單配置,就可以把結(jié)構(gòu)化的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫或ES等數(shù)據(jù)庫,以便后續(xù)業(yè)務(wù)分析和處理。
同時它支持多活部署、數(shù)據(jù)分庫分表、導(dǎo)出數(shù)據(jù)可視化、應(yīng)用監(jiān)管等功能,能夠適應(yīng)各類復(fù)雜業(yè)務(wù)場景。
Data-Export主要具備以下功能特性:
(1)支持智能合約數(shù)據(jù)的導(dǎo)出
合約相關(guān)的方法和事件數(shù)據(jù)能夠通過Data-Export解析并導(dǎo)出,導(dǎo)出后的數(shù)據(jù)較為直觀,能夠被用來作展示和分析。
(2)數(shù)據(jù)復(fù)雜查詢和分析
在數(shù)據(jù)存儲方面,Data-Export目前支持MySQL、ES存儲,并提供擴展接口,同時,支持多種導(dǎo)出策略。數(shù)據(jù)在導(dǎo)出到鏈下后,可進行復(fù)雜查詢和進一步分析。
(3)支持讀寫分離的技術(shù)架構(gòu)
利用Data-Export可以將上鏈寫操作與讀操作進行分離,通過將數(shù)據(jù)導(dǎo)出鏈下來提供讀能力,從而減輕鏈節(jié)點在讀操作上的壓力,實現(xiàn)讀寫分離的技術(shù)架構(gòu)。
(4)提供監(jiān)控等可視化能力
可將鏈上數(shù)據(jù)導(dǎo)出到數(shù)據(jù)庫表中,通過可視化能力提供數(shù)據(jù)展示,呈現(xiàn)數(shù)據(jù)的核心流程和價值,實現(xiàn)對區(qū)塊鏈數(shù)據(jù)的監(jiān)控等能力。
Data-Reconcile數(shù)據(jù)對賬組件
傳統(tǒng)企業(yè)之間的對賬,主要依賴于對賬雙方的中心化賬本。基于區(qū)塊鏈本身所具有傳遞性、不可篡改以及驅(qū)動化等特性,我們可以找到一個可信的客觀依據(jù)。
Data-Reconcile是一款基于區(qū)塊鏈的數(shù)據(jù)對賬組件,提供基于區(qū)塊鏈智能合約賬本的通用化數(shù)據(jù)對賬解決方案。
Data-Reconcile主要具備以下功能特性:
(1)支持動態(tài)可拓展定制化的開發(fā)
一方面,Data-Reconcile數(shù)據(jù)對賬組件會提供一些通用化模式;另一方面,在不同業(yè)務(wù)場景也支持進一步的定制化開發(fā)。
(2)靈活可配置的數(shù)據(jù)對賬規(guī)則
對賬規(guī)則是可以自定義進行配置,提供對賬任務(wù)的調(diào)度管理。
(3)對賬流程的可插拔、可擴展
提供擴展接口,功能和流程可插拔。
對于Data-Stash 數(shù)據(jù)倉庫、Data-Export數(shù)據(jù)導(dǎo)出、Data-Reconcile數(shù)據(jù)對賬這三個主要組件的具體操作演示,歡迎點擊觀看操作演示。
WeBankBlockchain-Data-Stash 數(shù)據(jù)倉庫組件
WeBankBlockchain-Data-Export 數(shù)據(jù)導(dǎo)出組件
WeBankBlockchain-Data-Reconcile 數(shù)據(jù)對賬組件
https://github.com/WeBankBlockchain/Data-Reconcile
《超話區(qū)塊鏈》
《超話區(qū)塊鏈》是由FISCO BCOS 開源社區(qū)推出的直播活動,每周四晚8點,社區(qū)邀請一位技術(shù)極客或應(yīng)用先鋒,做客直播間分享開發(fā)實踐或應(yīng)用心得。作為社區(qū)固定欄目,《超話區(qū)塊鏈》已舉辦近百場,從技術(shù)研討到產(chǎn)業(yè)應(yīng)用均有觸達(dá),歡迎大家自薦或推薦朋友到直播間分享。公眾號對話框回復(fù)小助手入群觀看直播。
FISCO BCOS的代碼完全開源且免費
下載地址↓↓↓
https://github.com/FISCO-BCOS/FISCO-BCOS

