金融級數(shù)據(jù)庫容災技術


數(shù)據(jù)庫作為信息系統(tǒng)的核心,承擔著數(shù)據(jù)存儲和業(yè)務邏輯計算等工作,各金融機構信息化部門均應用大量容災備份手段,用于保障數(shù)據(jù)庫的業(yè)務連續(xù)性。
近年來,隨著數(shù)據(jù)庫應用場景日益豐富和數(shù)據(jù)庫的云化趨勢顯著,金融機構數(shù)據(jù)庫的容災備份手段和模式也不斷迭代更新。
本文聚焦金融領域的數(shù)據(jù)庫在災備方面的技術內容。介紹了容災與備份的定義、分類,分析了金融機構災備現(xiàn)狀、需求與災備市場情況,梳理了主流數(shù)據(jù)庫容災備份技術架構、實現(xiàn)方式與部署方案。
原文鏈接:金融級數(shù)據(jù)庫容災技術
容災備份簡稱“災備”,是指利用科學的技術手段和方法,提前建立系統(tǒng)化的數(shù)據(jù)應急方式,以應對災難的發(fā)生。容災與備份是兩個獨立的概念,容災是為了在遭遇災害時保證信息系統(tǒng)能正常運行,幫助企業(yè)實現(xiàn)業(yè)務連續(xù)性的目標,備份是為了應對災難來臨時造成的數(shù)據(jù)丟失問題。
災備行業(yè)起源于20世紀70年代的美國費城。1979年,SunGard公司在費城建立了全世界第一個災備中心,當時人們關注的重點是企業(yè)的數(shù)據(jù)備份和系統(tǒng)備份。后來,IT備份發(fā)展到了災難恢復規(guī)劃(DRP),在IT備份中加入了災難恢復預案、資源需求、災備中心管理,形成了對生產運行中心的保障概念。再后來,人們把災難恢復從IT角度逐漸轉向了業(yè)務的角度,用業(yè)務來衡量災備目標,即哪些業(yè)務最重要,哪些業(yè)務可容忍的恢復時間最短。隨著企業(yè)規(guī)模擴展及信息系統(tǒng)的應用范圍日益擴大,信息系統(tǒng)在企業(yè)運營過程中的角色愈發(fā)重要,為防范因為各種因素企業(yè)數(shù)據(jù)遭到毀壞,如地震、火災、恐怖襲擊等,異地災備建設的需求應運而生。
根據(jù)已經發(fā)生的災備事件總結分析,通常情況下災難發(fā)生的原因有以下幾種方式:

容災,即災難發(fā)生時,在保證生產系統(tǒng)數(shù)據(jù)盡量少丟失的情況下,保持生產系統(tǒng)業(yè)務的不間斷運行。容災技術是信息系統(tǒng)的高可用性技術的一個組成部分。容災方式根據(jù)容災距離和保護等級存在兩種分類方式。
1)按容災距離劃分:按照容災距離分類,容災可分為本地容災和異地容災。
2)按保護級別劃分:按照保護級別,容災系統(tǒng)可分為數(shù)據(jù)級容災、應用級容災和業(yè)務級容災。
備份是指數(shù)據(jù)或系統(tǒng)的備份,它是容災的基礎,是指為防止系統(tǒng)出現(xiàn)操作失誤或故障導致的數(shù)據(jù)丟失,而將全部或部分數(shù)據(jù)集合從應用主機的硬盤或陣列復制到其它存儲介質的過程,數(shù)據(jù)庫的備份與恢復通常基于數(shù)據(jù)庫日志文件進行操作。
備份方式根據(jù)備份數(shù)據(jù)量、備份頻率和備份對象等多種分類方式。按照備份數(shù)據(jù)量,備份可分為全量備份、增量備份和差異備份。

按照備份頻率,備份可以分為定時備份和實時備份。按照備份對象,備份可以分為字節(jié)級備份、塊級備份和文件級備份。
備份是容災的基石,其目的是為了系統(tǒng)數(shù)據(jù)崩潰時能夠恢復數(shù)據(jù)。容災不能替換備份,容災系統(tǒng)會完整地將生產系統(tǒng)的任何變化復制到容災端,比如誤將計費系統(tǒng)內的用戶信息表刪除,容災端的用戶信息表也會被完整刪除。如果是同步容災,容災端的相關數(shù)據(jù)同時被刪除了;如果是異步容災,容災端的相關數(shù)據(jù)在數(shù)據(jù)異步復制的間隔內會被刪除。這時需要從備份系統(tǒng)中取出最新備份,從而恢復被錯誤刪除的信息。因此,容災系統(tǒng)的建設不能替代備份系統(tǒng)的建設。
評估一個災備系統(tǒng)可靠性的兩個重要指標為恢復時間目標(Recovery Time Objective,以下簡稱“RTO”)與恢復點目標(Recovery Point Objective,以下簡稱“RPO”)。
金融機構對數(shù)據(jù)零丟失和業(yè)務連續(xù)性要求在各行各業(yè)要求最高。以銀行為例,銀行信息系統(tǒng)架構最為嚴格,要求采用兩地三中心或主備等多種模式構建災備系統(tǒng),通過裸光纖或密集型光波復用(DWDN)技術實現(xiàn)數(shù)據(jù)中心與各個營業(yè)網點的數(shù)據(jù)同步。以證券公司為例,各大券商的災備中心的架構通常采用虛擬化技術,實現(xiàn)生產端物理機與虛擬機并存,災備端以虛擬機為主的配置。
綜合各類金融機構,主要需求包括但不限于:1)海量數(shù)據(jù)備份、實時復制;2)數(shù)據(jù)庫數(shù)據(jù)跨平臺遷移和讀寫分離;3)主備業(yè)務系統(tǒng)應用高可用;4)提升災備中心智能運維水平;5)大規(guī)模災備系統(tǒng)可用性驗證的自動化能力等。
金融機構分類較多,不同行業(yè)發(fā)布的法律法規(guī)各不相同,以要求最為嚴格的銀行和證券行業(yè)為代表,以下列舉相關重要的現(xiàn)行標準規(guī)范:《證券期貨業(yè)數(shù)據(jù)分類分級指引》自2018年9月27日同日公布實施,數(shù)據(jù)分類是按照 GB/T 10113-2003 中的線分類法和 GB/T 22240-2008中的定級方法為基礎進行分類的。目的是在數(shù)據(jù)分類的基礎上,對已分類數(shù)據(jù)按照數(shù)據(jù)泄露或損壞造成的影響進行分級,形成統(tǒng)一的分類分級方法。同時,在數(shù)據(jù)用語的使用過程中,也強調予以統(tǒng)一。
除上述監(jiān)管要求外,證券行業(yè)信息安全監(jiān)管還有包括但不限于:
《證券期貨業(yè)信息安全保障管理辦法》;
《證券期貨業(yè)信息安全事件報告與調查處理方法》;
《證券期貨經營機構信息系統(tǒng)備份能力標準》等。
金融領域確保業(yè)務連續(xù)性是重中之重,它關系到廣大投資者和用戶日常的投資行為和經濟消費行為,任何由于數(shù)據(jù)庫導致的非計劃性停機,都可能引發(fā)巨大的經濟損失和非經濟性影響。
智研咨詢報告顯示,中國災備行業(yè)市場規(guī)模從2010年的49.8億人民幣,增長至2018年近180億人民幣,預計至2022年中國災備行業(yè)市場規(guī)??蛇_300億以上。
Gartner預計到2021年,使用備份而非歸檔方式來管理企業(yè)長期的比例將由2017年的30%升 至50%。國際災備市場發(fā)展同樣強勁,根據(jù)DataCore的2018年報告5顯示,有20%的用戶計劃將存儲預算的25%用于災備方面。
隨著IT技術產品不斷迭代,災備應用場景從同機房本地備份容災,向同城、異地及云端等更宏大的場景延伸;災備技術從傳統(tǒng)的存儲復制技術,延伸到基于主機、操作系統(tǒng)、數(shù)據(jù)庫、文件和網絡等五大數(shù)據(jù)復制技術。災備產品也正在不斷拓展邊界,涵蓋傳統(tǒng)系統(tǒng)備份、容災和恢復;數(shù)據(jù)同步、分發(fā)、脫敏、副本管理;大數(shù)據(jù)管理與應用;數(shù)據(jù)庫讀寫分離與容災等。其中,數(shù)據(jù)庫容災架構在信息系統(tǒng)容災架構中發(fā)揮至關重要的作用。
不同應用場景和業(yè)務需求下,分布式數(shù)據(jù)庫的部署方式應該選擇合理容災架構,常見的分布式數(shù)據(jù)庫容災架構包括單中心容災、同城互備、同城雙活、兩地三中心等。
對于容災要求不高的一些內部業(yè)務系統(tǒng),可以只在單一的生產中心內部署。在這種模式下,數(shù)據(jù)庫通過在該生產中心的多個不同可用區(qū)多實例部署,實現(xiàn)數(shù)據(jù)庫服務高可用。不同可用區(qū)的數(shù)據(jù)庫均能向應用系統(tǒng)提供數(shù)據(jù)庫訪問服務。

基于數(shù)據(jù)庫的高可用機制,可以抵御部分節(jié)點甚至機房可用區(qū)整體故障,仍然保持數(shù)據(jù)庫服務正常服務。但如果遇到數(shù)據(jù)中心級的災難,則無法保持可用。
同城互備模式需要在災備中心內部署與生產中心業(yè)務系統(tǒng)相同資源配置,包括應用和數(shù)據(jù)庫在內的完整業(yè)務系統(tǒng)。生產中心和災備中心均能承載全流量業(yè)務壓力。數(shù)據(jù)庫系統(tǒng)在生產中心和災備中心都需要冗余部署滿足系統(tǒng)正常運行的全部組件,并配備滿足全量數(shù)據(jù)存儲和訪問壓力的存儲和計算資源。正常情況下,只有生產中心投入運行,災備中心處于在線待機狀態(tài)。當數(shù)據(jù)中心發(fā)生災難時,災備中心可以在短時間內切換并提供服務,快速實現(xiàn)業(yè)務止損。異地互備模式部署架構圖如下:

為了一定程度提高資源利用率,針對不同的核心業(yè)務系統(tǒng),可交替設置主備中心。主備中心數(shù)據(jù)同步方式,可以采用強同步機制或異步同步機制。這取決于根據(jù)業(yè)務對數(shù)據(jù)一致性的要求,同時也受到數(shù)據(jù)中心距離帶來的網絡延時限制。
當數(shù)據(jù)中心和災備中心在同城距離較近,網絡延時較小,通常選擇強同步,可稱為同城互備;當數(shù)據(jù)中心間距離較遠,跨地區(qū)進行傳輸?shù)木W絡延時較大,可稱為異地互備。
同城雙活是雙活技術與同城災備中心模式結合的一種主流容災架構。業(yè)務系統(tǒng)可以同時通過生產中心和災備中心進行訪問,無需指定特定的訪問規(guī)則。數(shù)據(jù)庫架構同時兼?zhèn)洚惖鼗淠J降呢撦d均衡和故障自動切換能力,且由于處于同城較近距離,兩個數(shù)據(jù)中心的存儲節(jié)點可以保持數(shù)據(jù)強一致。
當其中一個中心發(fā)生災難時,通過接入前端的負載均衡調整,可將全流量輸入對等的災備中心;數(shù)據(jù)庫同時自動進行切換,災備中心的數(shù)據(jù)庫集群承載全部查詢請求。同城雙活的部署示意圖如下:

基于數(shù)據(jù)分布式架構可以對應用層提供透明的雙活能力。以一個四分片的數(shù)據(jù)表為例,分片數(shù)據(jù)可以均勻分布在兩個中心的數(shù)據(jù)庫存儲節(jié)點中:

在同城雙活容災架構下,數(shù)據(jù)庫系統(tǒng)在生產中心和災備中心也同樣都需要冗余部署滿足系統(tǒng)正常運行的全部組件,每一個計算中心都需要配備滿足全量業(yè)務訪問要求的存儲和計算資源。
在同城雙活或者同城互備的架構下,再增加一個遠距離的容災中心,可實現(xiàn)兩地三中心的容災架構。

該架構在同城容災方案的基礎上,獲得了對地震、颶風等區(qū)域級災難的抵御能力。由于異地災備中心距離較遠,所以數(shù)據(jù)同步一般考慮使用異步模式,可基于數(shù)據(jù)庫異步同步功能實現(xiàn),或者在應用層使用消息隊列等組件進行業(yè)務數(shù)據(jù)異步同步,進而實現(xiàn)遠距離異地機房的數(shù)據(jù)最終一致性。
來源:中國信息通信研究院和北京百度網訊科技有限公司
下載地址:

轉載申明:轉載本號文章請注明作者和來源,本號發(fā)布文章若存在版權等問題,請留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包”相關電子書(37本技術資料打包匯總詳情可通過“閱讀原文”獲取)。
全店內容持續(xù)更新,現(xiàn)下單“全店鋪技術資料打包(全)”,后續(xù)可享全店內容更新“免費”贈閱,價格僅收198元(原總價350元)。
溫馨提示:
掃描二維碼關注公眾號,點擊閱讀原文鏈接獲取“架構師技術全店資料打包匯總(全)”電子書資料詳情。

