大數(shù)據(jù)時代的“冷熱數(shù)據(jù)”管理

信息爆炸的時代數(shù)據(jù)極速膨脹,數(shù)據(jù)存儲與計算消耗的IT資源、能源日益增長。為了節(jié)省能源,例如我國推出了東數(shù)西算,騰訊把數(shù)據(jù)中心裝進了貴州山里,微軟把數(shù)據(jù)中心建在海底,“臉書”在猶他州雪山旁建立新數(shù)據(jù)中心。海底的數(shù)據(jù)中心建設(shè)從硬件、技術(shù)角度進行“數(shù)據(jù)成本”控制。從業(yè)務(wù)角度對膨脹的數(shù)據(jù)本身進行“冷熱”分級管理,不僅有利于節(jié)約“計算成本”,也可以提高業(yè)務(wù)數(shù)據(jù)化運營效率
冷熱數(shù)據(jù)主要從數(shù)據(jù)訪問頻度、更新頻度進行劃分。冷數(shù)據(jù),即實際生產(chǎn)中被訪問、更新頻度比較低、概率比較低的數(shù)據(jù)。熱數(shù)據(jù),訪問、更新頻度較高,未來被調(diào)用的概率較高的數(shù)據(jù)。冷數(shù)據(jù)在業(yè)務(wù)場景中計算時效要求慢,可以做集中化部署,可以對數(shù)據(jù)進行壓縮、去重等降低成本的方法。熱數(shù)據(jù)因為訪問頻次需求大,效率要求高,可以高性能存儲與就近計算部署;
數(shù)據(jù)冷熱管理最核心目標提高算力利用率,所謂算力通常包含CPU、GPU、內(nèi)存、帶寬等能力,算力瓶頸在于單位時間內(nèi)處理數(shù)據(jù)能力。視頻、人工智能等領(lǐng)域的算力消耗集中在對大規(guī)模數(shù)據(jù)及參數(shù)的“算法”的計算處理。在傳統(tǒng)行業(yè)領(lǐng)域以結(jié)構(gòu)化數(shù)據(jù)為主,算力消耗集中在“訂單、客戶、事件”三大類數(shù)據(jù)的搬運、數(shù)據(jù)排序、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)合并、數(shù)據(jù)算術(shù)運算、數(shù)據(jù)的查詢等。
希望通過對數(shù)據(jù)冷熱區(qū)分,精準識別出“熱”數(shù)據(jù),減少對“冷數(shù)據(jù)”的搬運、關(guān)聯(lián)、排序、計算等,把算力集中在刀刃上,實現(xiàn)數(shù)據(jù)處理“提速、降本”。
數(shù)據(jù)規(guī)模控制目前有“冷熱分離異構(gòu)系統(tǒng)”和“冷熱分離同構(gòu)系統(tǒng)”兩類架構(gòu)。
“冷熱分離異構(gòu)系統(tǒng)”:將冷熱數(shù)據(jù)根據(jù)被訪問的頻度及概率,一般來說將“時間序列較早,訪問頻度較低于一定比例”歸檔轉(zhuǎn)移至另一個系統(tǒng)的進行存儲。兩套系統(tǒng)擁有不同的存儲特性、訪問方式等,優(yōu)先熱數(shù)據(jù)訪問性能的同時,降低冷數(shù)據(jù)的運維成本
“冷熱分離同構(gòu)系統(tǒng)”:冷熱數(shù)據(jù)應(yīng)用同一套規(guī)則,同一個數(shù)據(jù)集群中部署不同配置的機器,不同服務(wù)器進HOT/COLD屬性標志。高配置服務(wù)器管理管理熱數(shù)據(jù),低配置服務(wù)器用于管理冷數(shù)據(jù)。當創(chuàng)建一個新的Index時,指定其數(shù)據(jù)分配到Hot屬性的機器上;一段時間后,再將其配置修改為分配到Cold屬性機器上,Elasticsearch便會自動完成數(shù)據(jù)遷移。系統(tǒng)級數(shù)據(jù)的冷熱分級管理可以有效提高算力使用效率。
圖:冷熱存儲策略

全冷存儲指數(shù)據(jù)全部存儲在HDD盤,是一種較為經(jīng)濟的存儲策略。全熱存儲指數(shù)據(jù)全部存儲在SSD盤,滿足高性能訪問的需求。冷熱混合存儲指一定數(shù)量的分區(qū)存儲在SSD盤,其余數(shù)據(jù)存儲在HDD盤。
傳統(tǒng)行業(yè)的數(shù)據(jù)處理不需要像阿爾法狗即時計算出圍棋的落子位置,更多的是固化的計算邏輯。因此可以通過“數(shù)據(jù)分區(qū)、計算分時”等策略優(yōu)化算力利用率
數(shù)據(jù)分區(qū),數(shù)據(jù)結(jié)構(gòu)設(shè)計時從動態(tài)與靜態(tài)維度對數(shù)據(jù)進行“冷熱”分區(qū),減少對“冷數(shù)據(jù)”的搬運、關(guān)聯(lián)、排序、計算等,降低參與計算的數(shù)據(jù)規(guī)模。計算分時,很多傳統(tǒng)領(lǐng)域數(shù)據(jù)計算步驟是相對固化的、非實時的,可以通過對計算步驟分解在多個時段,平滑并發(fā)計算量。
1、所謂靜態(tài)數(shù)據(jù)主要指事件類數(shù)據(jù),描述發(fā)生一個事件的數(shù)據(jù)記錄,如保險領(lǐng)域理賠,報案事件、理算記錄、結(jié)案事件,每個事件包含了對象、時間、事件內(nèi)容等。靜態(tài)數(shù)據(jù)參與的計算主要在于“被搬運、被查詢、被關(guān)聯(lián)、被計算”,靜態(tài)數(shù)據(jù)本身幾乎不進行合并更新計算。對于靜態(tài)數(shù)據(jù)中被關(guān)聯(lián)、被計算關(guān)鍵字段可以進行熱度標識,參與計算的高頻字段可以分配至臨時表獨立存儲,減少統(tǒng)計類計算時加載的數(shù)據(jù)規(guī)模。
如:保險領(lǐng)域?qū)碣r事件原始數(shù)據(jù)字段超過20個,數(shù)據(jù)“入湖共享”時對高頻度報表計算的“案件類型、報案時間、結(jié)案時間、金額”4個“熱”數(shù)據(jù)字段拆出一個獨立表進行共享,并增加“機構(gòu)屬性標記、客戶號、手機號、保單號”關(guān)聯(lián)關(guān)鍵字段(數(shù)據(jù)規(guī)模比原始數(shù)據(jù)降低3/4)。這樣不同機構(gòu)在開展個性化理賠統(tǒng)計報表分析時(不同分公司報表分析頻度、統(tǒng)計樣式可以個性化),僅需要加載對應(yīng)機構(gòu)的數(shù)據(jù),快速完成“客戶-理賠”與“保單-理賠”關(guān)聯(lián)計算,減少“客戶-保單-理賠”跨表數(shù)據(jù)搬運及復(fù)雜關(guān)聯(lián)。
2、動態(tài)數(shù)據(jù)指會時序更新的數(shù)據(jù),如客戶類的數(shù)據(jù)“收入、偏好、最近一次交易等”涉及持續(xù)更新合并。動態(tài)數(shù)據(jù)消耗的算力集中在“數(shù)據(jù)更新合并、數(shù)據(jù)排序、查詢、關(guān)聯(lián)”,其中數(shù)據(jù)的Update涉及較多校驗規(guī)則。針對動態(tài)數(shù)據(jù)中各字段更新頻度進行冷熱標識,對于高頻度update字段進行獨立表管理,避免高頻對大寬表的讀寫操作。
如在保險領(lǐng)域,客戶高頻度更新信息字段主要是“職業(yè)、出險次數(shù)、最近投保”等和交易關(guān)聯(lián)性強字段,客戶數(shù)據(jù)中臺數(shù)據(jù)結(jié)構(gòu)設(shè)計時,對高頻update字段獨立表寫入管理,減少對客戶大寬表加載與讀寫。
目前在IT行業(yè)系統(tǒng)架構(gòu)設(shè)計重視度比較高,在數(shù)據(jù)結(jié)構(gòu)設(shè)計有很大提升空間。如我所在在保險企業(yè)業(yè)務(wù)核心系統(tǒng)為外資產(chǎn)品,運行10多年后進行升級重構(gòu)時,最大的難題就是數(shù)據(jù)結(jié)構(gòu)設(shè)計,招投標時國內(nèi)廠商可以在系統(tǒng)結(jié)構(gòu)上給出較為完善的解決方案,但在數(shù)據(jù)結(jié)構(gòu)上、數(shù)據(jù)規(guī)則上面臨很大挑戰(zhàn)。
作者:魏來,金融領(lǐng)域數(shù)據(jù)營銷、數(shù)據(jù)中臺資深專家,微信號18616082325
(歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。
我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長按,識別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂部
微信號:zgsjgjjlb
專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。
