淺談數(shù)據(jù)災備關(guān)鍵技術(shù)(重刪、加密和傳輸)


當我們進行集中數(shù)據(jù)備份和歸檔時,重復的數(shù)據(jù)塊會導致存儲費用快速上升,同時也會占用數(shù)據(jù)傳輸帶寬,這時就需要去重技術(shù)(重復數(shù)據(jù)刪除技術(shù))。
數(shù)據(jù)去重技術(shù)通常用于基于磁盤的備份系統(tǒng),通過在某個時間周期內(nèi)刪除不同文件中不同位置的重復可變大小數(shù)據(jù)塊,減少存儲系統(tǒng)中使用的存儲容量。

數(shù)據(jù)去重技術(shù)的過程是指:在存儲數(shù)據(jù)前,以塊為單位進行哈希比對,對已經(jīng)存儲的數(shù)據(jù)塊不再進行存儲,只是用索引來記錄該數(shù)據(jù)塊;對沒有存儲的新數(shù)據(jù)塊,進行物理存儲,再用索引記錄,這樣同的數(shù)據(jù)塊物理上只存儲一次。通過索引,可以到完整的數(shù)據(jù)邏輯視圖,而實際上物理存儲的數(shù)據(jù)卻很少。
數(shù)據(jù)去重技術(shù)主要分為基于軟件的重復數(shù)據(jù)刪除和基于硬件的重復數(shù)據(jù)刪除兩種方式:基于軟件的重復數(shù)據(jù)刪除旨在消除源端的冗余,以此減少帶寬的壓力。但是,基于軟件的重復數(shù)據(jù)刪除維護十分困難,如果想用一個全新的產(chǎn)來替換原有的備份引擎,就會導致之前的數(shù)據(jù)完全不可用。
基于硬件的重復數(shù)據(jù)刪除在存儲系統(tǒng)本身進行數(shù)據(jù)削減,具有更高的壓縮比,更加適合大型企業(yè)使用。正常情況下,備份軟件會將專用設(shè)備成一般的“磁盤系統(tǒng)”,并且不會感知其內(nèi)部正在進行的重復數(shù)據(jù)刪除進程。具有更高的壓縮比,更加適合大型企業(yè)使用。
另外,數(shù)據(jù)去重又分為源端去重和目標端去重:
源端去重是指當數(shù)據(jù)從“源端”傳輸?shù)健澳繕硕恕敝埃谠炊讼葘Ρ粋鬏數(shù)臄?shù)據(jù)塊進行哈希比對,如果該數(shù)據(jù)塊先前已經(jīng)被傳輸過,只需要傳輸哈希索引值;如果該數(shù)據(jù)塊先前沒有被傳輸過,就傳輸該數(shù)據(jù)塊,并記錄該數(shù)據(jù)塊的哈希值。目標端去重是指當數(shù)據(jù)從“源端”傳輸?shù)健澳繕硕恕钡倪^程中,把數(shù)據(jù)塊傳送到目標端,在目標端進行去重操作。
重復數(shù)據(jù)的刪除并非災備系統(tǒng)中的必備環(huán)節(jié),英方字節(jié)數(shù)據(jù)捕獲與復制技術(shù)、增量數(shù)據(jù)復制技術(shù)在源端就可以有效解決數(shù)據(jù)重復傳輸?shù)膯栴}。
數(shù)據(jù)級災備往往依托于多部門、多單位甚至是跨系統(tǒng)地綜合協(xié)作,因此數(shù)據(jù)在傳輸過程或存儲介質(zhì)上的安全性問題也會格外突出。
在災備工作的具體實踐中,英方主要采用基于端及基于傳輸通道的加密方式進行數(shù)據(jù)的安全保護,以往的數(shù)據(jù)災備更多的是企業(yè)自主行為,不管是源端、備端還是傳輸網(wǎng)絡(luò)都是企業(yè)自有資源,安全性較高,所以很多災備系統(tǒng)往往只將注意力集中在可用性和完整性上,對機密性缺乏關(guān)注。
現(xiàn)在,在娛樂行業(yè),很多電影、音樂、圖書、游戲的數(shù)據(jù)都保存在云端,業(yè)務(wù)云化開始不斷地提供大家多種多樣的數(shù)字生活。但是,在云端的業(yè)務(wù)數(shù)據(jù)存在很多由網(wǎng)絡(luò)攻擊、誤操作造成的數(shù)據(jù)丟失等風險,因此企業(yè)或個人,需要對云端的安全性加強防范意識。
首先,從備份數(shù)據(jù)存儲安全性的角度來,備份數(shù)據(jù)如果在存儲介質(zhì)上以明文方式存放,容易被黑客攻擊造成數(shù)據(jù)外泄。
其次,從備份數(shù)據(jù)傳輸安全性的角度來,備份數(shù)據(jù)如果在網(wǎng)絡(luò)傳輸過程中以明文或不當?shù)募用芊绞絺鬏敚菀淄ㄟ^數(shù)據(jù)截取等手段造成備份數(shù)據(jù)泄露。
目前,針對數(shù)據(jù)的加密方式有很多,簡單分類后大體可以分為兩種加密方式:?
源端加密是對數(shù)據(jù)的源端產(chǎn)出和目標端的存儲進行加密。一個文件系統(tǒng)( 比如Windows加密文件系統(tǒng))或一個數(shù)據(jù)庫對存儲在里的數(shù)據(jù)進行加密。如果數(shù)據(jù)存儲時進行加密,備份的時候也應(yīng)地加密。源端加密分為:硬件加密和軟件加密。
硬件加密技術(shù)是采用硬件數(shù)據(jù)加密技術(shù)對產(chǎn)硬件進行加密,具備防止暴力破解、密碼猜測、數(shù)據(jù)恢復等功能,實現(xiàn)方式有鍵盤式加密、刷卡式加密,指紋式加密等。
軟件加密是通過產(chǎn)內(nèi)置的加密軟件實現(xiàn)對存儲設(shè)備的加密功能,實現(xiàn)方式主要有軟件內(nèi)密碼加密、證書加密、光盤加密等。
在實踐中,英方i2CDP即采用了目前流行的AES(Advanced Encryption Standard)加密算法,AES在軟件及硬件上都能快速地加解密,易于應(yīng)用,且只需要很少的存儲器。
傳輸加密是在備份數(shù)據(jù)發(fā)起端與備份介質(zhì)之間串聯(lián)一個數(shù)據(jù)加密網(wǎng)關(guān),備份數(shù)據(jù)發(fā)起端先與加密網(wǎng)關(guān)建立安全隧道,備份數(shù)據(jù)通過安全隧道以保證傳輸安全。同時加密網(wǎng)關(guān)以完全透明的方式讓數(shù)據(jù)在備份傳輸過程中實時被加密。
在具體應(yīng)用中,最為理想的情況是采用源端加密與傳輸加密合的方式,存儲設(shè)備帶數(shù)據(jù)文件加密功能并提供安全隧道服務(wù)。備份數(shù)據(jù)發(fā)起端先與加密網(wǎng)關(guān)建立安全隧道,備份數(shù)據(jù)通過安全隧道進行以保證傳輸安全。同時在備份數(shù)據(jù)落地到存儲介質(zhì)前,先對備份數(shù)據(jù)文件進行加密,保證存儲介質(zhì)上存放的都是密文數(shù)據(jù)。
數(shù)據(jù)以某種格式記錄在計算機內(nèi)部或外部存儲介質(zhì)上的過程稱為數(shù)據(jù)存儲。數(shù)據(jù)存儲對象括數(shù)據(jù)流在加工過程中產(chǎn)生的臨時文件或加工過程中需要查找的信息。存儲和災備并不屬于同一領(lǐng)域, 但災備技術(shù)的發(fā)展依托于存儲技術(shù)的發(fā)展,數(shù)據(jù)備份的過程也必須涉及數(shù)據(jù)的存儲過程。
此外,隨市場競爭的加劇,災備企業(yè)和存儲企業(yè)之間的界限也逐模糊,互之間的市場滲透也在不斷加劇。因此談災備,必然談存儲。存儲根據(jù)服務(wù)器類型分為封閉系統(tǒng)的存儲(封閉系統(tǒng)主要指大型機)和開放系統(tǒng)的存儲(開放系統(tǒng)指基于Windows、UNIX、Linux等操作系統(tǒng)的服務(wù)器)。

開放系統(tǒng)的存儲分為:內(nèi)置存儲和外掛存儲。
外掛存儲根據(jù)連接的方式分為:直連式存儲(Direct Attached?Storage—DAS)和網(wǎng)絡(luò)存儲(NAS);網(wǎng)絡(luò)化存儲根據(jù)傳輸協(xié)議又分為網(wǎng)絡(luò)接入存儲(NAS)和存儲區(qū)域網(wǎng)絡(luò)(Storage?Area?Network—SAN)。
DAS這種存儲方式與普通的PC存儲架構(gòu)一樣,外部存儲設(shè)備都是直接掛接在服務(wù)器內(nèi)部總線上,數(shù)據(jù)存儲設(shè)備是整個服務(wù)器構(gòu)的一部分。DAS直連式存儲與服務(wù)器主機之間的連接通常采用SCSI連接,服務(wù)器主機SCSI ID資源有限,能夠建立的SCSI通道連接有限。

無論直連式存儲還是服務(wù)器主機的擴展,從一臺服務(wù)器擴展為多臺服JBOD務(wù)器組成的群集(Cluster),或存儲陣列容量的擴展,都容易造成業(yè)務(wù)系統(tǒng)的宕機。DAS存儲方式主要適用以下環(huán)境:
?
小型網(wǎng)絡(luò):因為網(wǎng)絡(luò)規(guī)模較小,數(shù)據(jù)存儲量小,采用這種存儲方式對服務(wù)器的影響不會很大,并且這種存儲方式也十分經(jīng)濟,適合擁有小型網(wǎng)絡(luò)的企業(yè)用戶。?
地理位置分散的網(wǎng)絡(luò):雖然企業(yè)總體網(wǎng)絡(luò)規(guī)模較大,但在地理分布上很分散,通過SAN或NAS在它們之間進行互聯(lián)非常困難,此時各分支機構(gòu)的服務(wù)器也可采用DAS存儲方式,這樣可以降低成本。
特殊應(yīng)用服務(wù)器:在一些特殊應(yīng)用服務(wù)器上,如微軟的集群服務(wù)器或某些數(shù)據(jù)庫使用的原始分區(qū),均要求存儲設(shè)備直接連接到應(yīng)用服務(wù)器。
提高DAS存儲性能:在服務(wù)器與存儲的各種連接方式中,DAS被認為是一種低效率的構(gòu),而且也不方便進行數(shù)據(jù)保護。直連存儲無法共享,因此經(jīng)常出現(xiàn)的情況是某臺服務(wù)器的存儲空間不足,而其他一些服務(wù)器卻有大量的存儲空間處于閑置狀態(tài)無法利用。如果存儲不能共享,就談不上容量分配與使用需求之間的平衡。
DAS構(gòu)下的數(shù)據(jù)保護流程對復雜,如果做網(wǎng)絡(luò)備份,那么每臺服務(wù)器都必須單獨進行備份,而且所有的數(shù)據(jù)流都要通過網(wǎng)絡(luò)傳輸。如果不做網(wǎng)絡(luò)備份,那么就要為每臺服務(wù)器都配一套備份軟 件和磁帶設(shè)備,導致備份流程的復雜度會大大增加。
SAN存儲方式創(chuàng)造了存儲的網(wǎng)絡(luò)化。存儲網(wǎng)絡(luò)化順應(yīng)了計算機服務(wù)器體系構(gòu)網(wǎng)絡(luò)化的趨勢。SAN的支撐技術(shù)是光纖通道(FiberChannel)技術(shù)。它是ANSI為SAN網(wǎng)絡(luò)和通道I/O接口建立的一個標準集成。FC技術(shù)支持HIPPI、IPI、SCSI、IP、ATM等多種高級協(xié)議,其最大特性是將網(wǎng)絡(luò)和設(shè)備的通信協(xié)議與傳輸物理介質(zhì)隔離開,這樣多種協(xié)議可在同一個物理連接上同時傳送。
?SAN允許企業(yè)獨立地增加存儲容量。它的構(gòu)允許任何服務(wù)器連接到任何存儲陣列,這樣不管數(shù)據(jù)放在哪里,服務(wù)器都可以直接存取所 需的數(shù)據(jù)。因為采用了光纖接口,SAN還具有更高的帶寬。
?SAN的硬件基礎(chǔ)設(shè)施是光纖通道,用光纖通道構(gòu)建的SAN由以下三個部分組:

存儲和備份設(shè)備:括磁帶、磁盤和光盤庫等。
光纖通道網(wǎng)絡(luò)連接部件:括主機總線適配卡、驅(qū)動程序、光纜、集線器、交換機、光纖通道和SCSI間的橋接器。
應(yīng)用和管理軟件:括備份軟件、存儲資源管理軟件和存儲設(shè)備管理軟件。SAN的優(yōu)點括網(wǎng)絡(luò)部署容易、高速存儲性能和良好的擴展能力等。
存儲區(qū)域網(wǎng)絡(luò)(NAS)方式則全改進了以前DAS存儲方式。它采用獨立于服務(wù)器,單獨為網(wǎng)絡(luò)數(shù)據(jù)存儲而開發(fā)的一種文件服務(wù)器來連接所存儲設(shè)備,自形成一個網(wǎng)絡(luò)。這樣數(shù)據(jù)存儲就不再是 服務(wù)器的附屬,而是作為獨立網(wǎng)絡(luò)節(jié)點存在于網(wǎng)絡(luò)之中,可由所有的網(wǎng)絡(luò)用戶共享。NAS的優(yōu)點包括:
即插即用:NAS是獨立的存儲節(jié)點存在于網(wǎng)絡(luò)之中,與用戶的操作系統(tǒng)平臺無關(guān),真正的即插即用。
存儲部署簡單:NAS不依賴通用的操作系統(tǒng),而是采用一個向用戶設(shè)計的,專門用于數(shù)據(jù)存儲的簡化操作系統(tǒng),內(nèi)置了與網(wǎng)絡(luò)連接所需要的協(xié)議,因此使整個系統(tǒng)的管理和設(shè)置較為簡單。
存儲設(shè)備位置非常靈活,管理容易且成本低:NAS數(shù)據(jù)存儲方式是基于現(xiàn)有的企業(yè)Ethernet而設(shè)計的,按照TCP/IP協(xié)議進行通信,以文件的I/O方式進行數(shù)據(jù)傳輸。
當然,NAS也并非十全十美,存儲性能較低、可靠度低是其主要缺點。

基于NAS存儲的海量數(shù)據(jù)的實時備份和容災是行業(yè)技術(shù)難點,英方根 據(jù)多年的災備實施經(jīng)驗,向業(yè)界提供了i2NAS海量數(shù)據(jù)災備方案,針對NAS存儲的分布式共享目錄,以IO事件通知的方式實現(xiàn)準實時的數(shù)據(jù)同步與備份,為企業(yè)用戶提供TB級的數(shù)據(jù)災備服務(wù)。
除了以上三種常見的存儲方式,比較常見的還有對象存儲與分布式存儲。對象存儲系統(tǒng)(Object-Based Storage System—OBS)是綜合了NAS和SAN的優(yōu)點,同時具有SAN的高速直接訪問和 NAS的數(shù)據(jù)共享等優(yōu)勢,提供了高可靠性、跨平臺性以及安全的數(shù)據(jù)共享的存儲體系構(gòu)。
對象存儲系統(tǒng),可以在一個持久穩(wěn)固且高度可用的系統(tǒng)中存儲任意的對象,且獨立于虛擬機實例之外。應(yīng)用和用戶可以在對象存儲中使用簡單的API訪問數(shù)據(jù);這些通常都基于表屬性狀態(tài)轉(zhuǎn)移(REST)架構(gòu),但是也有向編程語言的界。

對象存儲提供了數(shù)據(jù)上受限操作的訪問控制。數(shù)據(jù)管理員可以在bucket層級上(類似于目錄)或?qū)ο髮蛹壣希愃颇夸浿械奈募?yīng)用訪問控制。存儲對象的授權(quán)/認證通過云供應(yīng)商的身份認證管理系統(tǒng)或你的目錄服務(wù)來管理。通過后,可能有一個本地的目錄,同基于云的目錄服務(wù)同步,鞏固所有的訪問控制角色和進入單一注冊庫的特權(quán)。因此,對象存儲被認為是云存儲得以快速發(fā)展的基礎(chǔ)。
分布式存儲系統(tǒng)利用了分布式技術(shù)將標準X86服務(wù)器的本地HDD(機械硬盤)、SSD(固態(tài)硬盤)等存儲介質(zhì)組織成一個大規(guī)模存儲資源池,但數(shù)據(jù)其實是分散存儲在多臺獨立的設(shè)備上。

傳統(tǒng)的網(wǎng)絡(luò)存儲系統(tǒng)采用集中的存儲服務(wù)器存放所有數(shù)據(jù),存儲服務(wù)器成為系統(tǒng)性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規(guī)模存儲應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴展的系統(tǒng)構(gòu),利用多臺存儲服務(wù)器分擔存儲負荷,利用位置服務(wù)器定位存儲信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。
相關(guān)閱讀:詳解數(shù)據(jù)中心災備切換技術(shù)
內(nèi)容來源:中國行業(yè)災備白皮書

轉(zhuǎn)載申明:轉(zhuǎn)載本號文章請注明作者和來源,本號發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構(gòu)相關(guān)技術(shù)知識總結(jié)請參考“架構(gòu)師技術(shù)全聯(lián)盟書店”相關(guān)電子書(35本技術(shù)資料打包匯總詳情可通過“閱讀原文”獲取)。
內(nèi)容持續(xù)更新,現(xiàn)下單“架構(gòu)師技術(shù)全店打包匯總(全)”,后續(xù)可享全店內(nèi)容更新“免費”贈閱,格僅收188元(原總價270元)。
溫馨提示:
掃描二維碼關(guān)注公眾號,點擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書資料詳情。

