<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)湖技術(shù)在某行業(yè)的實(shí)踐

          共 7589字,需瀏覽 16分鐘

           ·

          2022-06-08 01:26

          與傳統(tǒng)的數(shù)據(jù)架構(gòu)要求整合、面向主題、固定分層等特點(diǎn)不同,數(shù)據(jù)湖為企業(yè)全員獨(dú)立參與數(shù)據(jù)運(yùn)營和應(yīng)用創(chuàng)新提供了極大的靈活性,并可優(yōu)先確保數(shù)據(jù)的低時延、高質(zhì)量和高可用,給運(yùn)營商數(shù)據(jù)架構(gòu)優(yōu)化提供了很好的參考思路。

          01 運(yùn)營商數(shù)據(jù)管理的現(xiàn)狀及挑戰(zhàn)

          從數(shù)據(jù)的系統(tǒng)歸屬上看,運(yùn)營商數(shù)據(jù)可分為MSS(管理支撐系統(tǒng))的面向人、財、物管理類數(shù)據(jù),BSS(業(yè)務(wù)支撐系統(tǒng))的面向客戶和產(chǎn)品的營銷及客戶服務(wù)數(shù)據(jù),OSS(運(yùn)營支撐系統(tǒng))的面向產(chǎn)品和網(wǎng)絡(luò)的功能及運(yùn)營服務(wù)數(shù)據(jù),三者之間既相對松耦合,又有著緊密的協(xié)作關(guān)系,BSS和OSS的銜接點(diǎn)主要在產(chǎn)品及開通、排障服務(wù),MSS和BSS、OSS的銜接點(diǎn)主要在參與人和資源。從數(shù)據(jù)分類來看,運(yùn)營商的數(shù)據(jù)可分為作為企業(yè)核心的功能類實(shí)體數(shù)據(jù)、表示企業(yè)所有運(yùn)營過程的活動類數(shù)據(jù)、體現(xiàn)內(nèi)外部客戶感知并圍繞兩大主線所產(chǎn)生的感知類指標(biāo)數(shù)據(jù)以及與管理相關(guān)的人、財、物及流程數(shù)據(jù)。電信運(yùn)營商數(shù)據(jù)范圍示例如圖1所示。

          由于國內(nèi)運(yùn)營商以兩級經(jīng)營模式為主體,系統(tǒng)的集約化建設(shè)程度相對較低,以分域(M/B/O)、分省建設(shè)為主,即便是同類系統(tǒng)的數(shù)據(jù),因?yàn)榉?1個省市建設(shè),各省市的業(yè)務(wù)管理模式、數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)等千差萬別,跨省、跨域、跨系統(tǒng)的模型標(biāo)準(zhǔn)統(tǒng)一非常困難,即便通過數(shù)據(jù)副本的模式進(jìn)行整合匯聚,也存在轉(zhuǎn)換不專業(yè)和數(shù)據(jù)失真等問題。同時,域與域之間雖是松耦合的,但因?yàn)槭褂谜吆徒ㄔO(shè)者的不同,相互之間會冗余存儲對方數(shù)據(jù),而建模和主數(shù)據(jù)又不同,跨域之間數(shù)據(jù)的關(guān)聯(lián)整合非常復(fù)雜,跨域、跨省的端到端應(yīng)用困難。
          運(yùn)營商的數(shù)據(jù)還有一個顯著的特點(diǎn),就是與網(wǎng)絡(luò)密切相關(guān),網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)和網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)需要與網(wǎng)絡(luò)保持實(shí)時一致,且數(shù)據(jù)量比較大,網(wǎng)絡(luò)智能化后的實(shí)時數(shù)據(jù)應(yīng)用需求也越來越多。通信網(wǎng)絡(luò)是一張大網(wǎng),即便引入云計算、虛擬化技術(shù),依然有大量網(wǎng)絡(luò)節(jié)點(diǎn)遍布31個省市,海量網(wǎng)絡(luò)數(shù)據(jù)的實(shí)時采集、處理及應(yīng)用也是運(yùn)營商數(shù)據(jù)架構(gòu)需要考慮的一個重要因素。
          國內(nèi)運(yùn)營商目前都不同程度地建立了自己的企業(yè)級大數(shù)據(jù)平臺,有的分總部/省兩級部署,支撐兩級數(shù)據(jù)分析,統(tǒng)一全網(wǎng)的架構(gòu)、來源、算法、規(guī)則,總部數(shù)據(jù)輕度匯總,按需采集匯聚高價值詳單數(shù)據(jù);有的采用1+N模式,建設(shè)總部和省互補(bǔ)協(xié)作平臺,總部提供跨域數(shù)據(jù)和特定的大數(shù)據(jù)能力,作為N的省向總部提供本地化數(shù)據(jù)能力與自定義算法。電信運(yùn)營商數(shù)據(jù)平臺架構(gòu)示例如圖2所示。

          不管采用哪種模式,都不同程度地存在其下屬各專業(yè)公司、各部門根據(jù)各自需要,或在生產(chǎn)系統(tǒng)內(nèi)構(gòu)建含大數(shù)據(jù)技術(shù)的混搭數(shù)據(jù)架構(gòu),或建設(shè)域內(nèi)自用的大數(shù)據(jù)平臺,因此有很多數(shù)據(jù)未進(jìn)入企業(yè)級大數(shù)據(jù)平臺,或數(shù)據(jù)平臺的應(yīng)用未達(dá)到預(yù)期。其原因可歸結(jié)為如下幾點(diǎn)
          平臺數(shù)據(jù)質(zhì)量不高
          平臺數(shù)據(jù)來自于M/B/O的生產(chǎn)系統(tǒng),而運(yùn)營商分兩級31省市建設(shè)的生產(chǎn)系統(tǒng),不但數(shù)據(jù)模型、主數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,業(yè)務(wù)管理模式的差異也很大。數(shù)據(jù)經(jīng)過多次模型轉(zhuǎn)換,存在嚴(yán)重失真的問題,且很難對數(shù)據(jù)質(zhì)量問題追蹤溯源。
          平臺數(shù)據(jù)不夠?qū)崟r
          數(shù)據(jù)經(jīng)過多級采集匯聚,處理環(huán)節(jié)多,采集周期長。網(wǎng)絡(luò)相關(guān)海量數(shù)據(jù)跨省傳輸,占用大量帶寬,數(shù)據(jù)時延較大。數(shù)據(jù)平臺目前只能以支撐離線的決策分析為主,難以滿足SDN/NFV/云網(wǎng)絡(luò)及物聯(lián)網(wǎng)等實(shí)時/準(zhǔn)實(shí)時數(shù)據(jù)應(yīng)用需求。
          平臺的靈活性不足
          數(shù)據(jù)平臺的建設(shè)以存儲計算一體化架構(gòu)為主,平臺與應(yīng)用緊耦合,多基于公共數(shù)據(jù)平臺和整合后的數(shù)據(jù)支撐應(yīng)用創(chuàng)新。對于新的數(shù)據(jù)整合、數(shù)據(jù)計算分析技術(shù)引入、平臺擴(kuò)容支撐等需求響應(yīng)不靈活,導(dǎo)致數(shù)據(jù)平臺應(yīng)用不足。
          平臺和應(yīng)用互鎖,形成惡性循環(huán)

          企業(yè)級數(shù)據(jù)平臺難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應(yīng)用需求,生產(chǎn)系統(tǒng)就沒有動力將自身數(shù)據(jù)和應(yīng)用遷入數(shù)據(jù)平臺,進(jìn)而數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量和可用性越來越差。同時,還導(dǎo)致生產(chǎn)系統(tǒng)和各個大數(shù)據(jù)平臺的數(shù)據(jù)重復(fù)采集、重復(fù)存儲,且相互之間數(shù)據(jù)訪問技術(shù)和管理壁壘嚴(yán)重,建設(shè)和維護(hù)成本大幅提高。

          02 數(shù)據(jù)湖方案的價值及可行性分析
          數(shù)據(jù)湖推崇存儲原生數(shù)據(jù),對不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲,使不同數(shù)據(jù)有一致的存儲方式,在使用時方便連接,真正解決數(shù)據(jù)集成問題。數(shù)據(jù)湖的本質(zhì)是一種數(shù)據(jù)管理的思路,利用低成本技術(shù)來捕捉、提煉和探索大規(guī)模、長期的原始數(shù)據(jù)存儲的方法與技術(shù)。數(shù)據(jù)湖可存儲任何種類的數(shù)據(jù),高質(zhì)量、高效率地存儲數(shù)據(jù),更快速、更廉價地處理數(shù)據(jù),將建模應(yīng)用問題丟給最終開發(fā)者[9]。
          數(shù)據(jù)湖的方案應(yīng)用可以帶來如下幾個顯著的好處
          規(guī)模大、成本低
          全企業(yè)海量數(shù)據(jù)統(tǒng)一存儲,采用開源技術(shù),基于低成本硬件資源,建立和維護(hù)成本相比數(shù)據(jù)倉庫低一個數(shù)量級。
          數(shù)據(jù)“原汁原味”
          數(shù)據(jù)湖以原始形式保存數(shù)據(jù),并在整個數(shù)據(jù)生命周期捕獲對數(shù)據(jù)和上下文語義的更改,尤其便于進(jìn)行合規(guī)性和內(nèi)部審計。如果數(shù)據(jù)經(jīng)歷了轉(zhuǎn)換、聚合和更新,將很難在需求出現(xiàn)時將數(shù)據(jù)拼湊在一起,而且?guī)缀鯖]有希望確定清晰出處。
          數(shù)據(jù)方便易用
          結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)都是原樣加載和存儲,以后再進(jìn)行轉(zhuǎn)換,開發(fā)和保存成本低,產(chǎn)生和使用之間時延小??蛻?、供應(yīng)商和數(shù)據(jù)運(yùn)營者不需要數(shù)據(jù)擁有者提供太多幫助即可整合數(shù)據(jù),消除了數(shù)據(jù)共享的內(nèi)部政治或技術(shù)障礙。
          應(yīng)用按需建模
          數(shù)據(jù)湖提供數(shù)據(jù)給靈活的、面向任務(wù)的結(jié)構(gòu)化應(yīng)用,詳細(xì)的業(yè)務(wù)需求和艱苦的數(shù)據(jù)建模都不是數(shù)據(jù)湖的先決條件。數(shù)據(jù)湖給予最終用戶最大的靈活度來處理數(shù)據(jù),對于同一份原始數(shù)據(jù),不同的用戶可能有不同的理解。
          目前,大部分運(yùn)營商采用傳統(tǒng)的以數(shù)據(jù)為中心的處理架構(gòu)(存儲計算一體化,如主流MPP、Hive和分布式計算廠商產(chǎn)品),好處是計算效率高、技術(shù)成熟,缺點(diǎn)也很明顯,如靈活性不足,使得數(shù)據(jù)應(yīng)用適用于少數(shù)人,這也制約了原生數(shù)據(jù)提供者向平臺提供的積極性,進(jìn)而導(dǎo)致數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的全面性都得不到很好的保障。
          引入數(shù)據(jù)湖概念的一個顯著特點(diǎn)就是存儲和計算松耦合,可采用以計算為中心的處理模式(存儲與計算分離,如Spark技術(shù)及AWS、阿里云等云服務(wù)提供商產(chǎn)品),使得運(yùn)營商可以更加專注于數(shù)據(jù)的存儲和管理,存儲和計算不用相互制約,從而優(yōu)先確保數(shù)據(jù)的高質(zhì)量、低時延、高可用,并為數(shù)據(jù)應(yīng)用的快速構(gòu)建提供了極大的靈活性。
          數(shù)據(jù)湖按照成熟度可劃分為4個階段:
          第一個階段,應(yīng)用程序獨(dú)立建設(shè),部分應(yīng)用將數(shù)據(jù)提供給數(shù)據(jù)倉庫,基于數(shù)據(jù)倉庫構(gòu)建分析應(yīng)用;
          第二個階段,數(shù)據(jù)湖和數(shù)據(jù)倉庫并存,應(yīng)用程序向數(shù)據(jù)湖提供副本數(shù)據(jù),基于數(shù)據(jù)湖開發(fā)分析型應(yīng)用,數(shù)據(jù)倉庫和應(yīng)用也可從數(shù)據(jù)湖提取數(shù)據(jù);
          第三個階段,新系統(tǒng)以數(shù)據(jù)湖為中心構(gòu)建,應(yīng)用通過數(shù)據(jù)湖交互彼此數(shù)據(jù),數(shù)據(jù)湖成為數(shù)據(jù)架構(gòu)的核心,數(shù)據(jù)倉庫基于數(shù)據(jù)湖提供特定的應(yīng)用需求,數(shù)據(jù)治理變得重要;
          第四個階段,所有新的應(yīng)用均基于數(shù)據(jù)湖構(gòu)建,數(shù)據(jù)湖成為彈性的分布式平臺,數(shù)據(jù)的治理和安全需持續(xù)加強(qiáng),支撐企業(yè)的數(shù)據(jù)運(yùn)營和分析能力。

          電信運(yùn)營商目前普遍處于第二個階段向第三個階段演進(jìn)的過程中,在構(gòu)建數(shù)據(jù)技術(shù)方案方面具備較好的基礎(chǔ)條件。

          03 電信運(yùn)營商數(shù)據(jù)湖架構(gòu)
          調(diào)整現(xiàn)有分析型數(shù)據(jù)平臺建設(shè)思路,將其數(shù)據(jù)與應(yīng)用解耦,引入數(shù)據(jù)湖概念,強(qiáng)調(diào)原生數(shù)據(jù)入湖,并與全網(wǎng)生產(chǎn)系統(tǒng)模型和主數(shù)據(jù)標(biāo)準(zhǔn)化協(xié)同推進(jìn),兼顧層次化的傳統(tǒng)數(shù)據(jù)架構(gòu)和扁平化的數(shù)據(jù)湖架構(gòu)的優(yōu)點(diǎn),SchemaonRead和SchemaonWrite并存,統(tǒng)一支撐企業(yè)實(shí)時、準(zhǔn)實(shí)時和離線數(shù)據(jù)應(yīng)用快速創(chuàng)新,是電信運(yùn)營商實(shí)現(xiàn)以數(shù)據(jù)為中心IT架構(gòu)轉(zhuǎn)型的有效途徑。
          數(shù)據(jù)湖作為運(yùn)營商數(shù)據(jù)存儲和訪問的唯一出口,成為所有IT系統(tǒng)共享的基礎(chǔ)設(shè)施,統(tǒng)一存儲全企業(yè)IT和網(wǎng)絡(luò)數(shù)據(jù),通過開放架構(gòu)支撐智慧運(yùn)營,并可作為IT系統(tǒng)集約化演進(jìn)的紐帶。
          數(shù)據(jù)統(tǒng)一存儲
          統(tǒng)一存儲MSS、BSS、OSS及網(wǎng)元平臺的實(shí)時、歷史、在線、離線數(shù)據(jù),全網(wǎng)的原生數(shù)據(jù)只存儲一份在邏輯統(tǒng)一的分布式數(shù)據(jù)湖內(nèi),原生數(shù)據(jù)與生產(chǎn)系統(tǒng)數(shù)據(jù)模型標(biāo)準(zhǔn)和主數(shù)據(jù)一致,新IT系統(tǒng)/網(wǎng)元平臺的生產(chǎn)數(shù)據(jù)直接使用數(shù)據(jù)湖存儲。
          數(shù)據(jù)統(tǒng)一管理
          所有入湖數(shù)據(jù)的目錄、元數(shù)據(jù)、數(shù)據(jù)應(yīng)用及數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)安全必須統(tǒng)一管理。數(shù)據(jù)模型標(biāo)準(zhǔn)和主數(shù)據(jù)動態(tài)維護(hù),數(shù)據(jù)質(zhì)量集中治理,原生系統(tǒng)的數(shù)據(jù)問題溯源處理,生產(chǎn)系統(tǒng)建設(shè)者全程參與數(shù)據(jù)管理,責(zé)任權(quán)利保持一致。
          數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)
          生產(chǎn)系統(tǒng)管理部門負(fù)責(zé)31省市系統(tǒng)模型和主數(shù)據(jù)的標(biāo)準(zhǔn)化;數(shù)據(jù)湖統(tǒng)一管理生產(chǎn)系統(tǒng)的數(shù)據(jù)模型及主數(shù)據(jù);暫未進(jìn)行標(biāo)準(zhǔn)化的生產(chǎn)系統(tǒng)數(shù)據(jù)模型,由對應(yīng)系統(tǒng)的管理部門負(fù)責(zé)數(shù)據(jù)模型的轉(zhuǎn)換和運(yùn)營,協(xié)調(diào)推進(jìn)生產(chǎn)系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)程。
          數(shù)據(jù)近源采集
          提供數(shù)據(jù)統(tǒng)一采集、實(shí)時訂閱分發(fā)框架,支撐實(shí)時/準(zhǔn)實(shí)時數(shù)據(jù)、離線數(shù)據(jù)的采集。各網(wǎng)元/平臺數(shù)據(jù)采集能力以組件方式納入數(shù)據(jù)湖,分專業(yè)采集、預(yù)處理加工,海量實(shí)時數(shù)可靠近網(wǎng)絡(luò)近源部署前置采集模塊。非網(wǎng)絡(luò)類數(shù)據(jù)(如BSS、MSS、OSS流程等),初期以副本采集方式匯聚入湖,遠(yuǎn)期直接以服務(wù)交互方式入湖。
          數(shù)據(jù)與應(yīng)用分離
          數(shù)據(jù)應(yīng)用環(huán)境與數(shù)據(jù)存儲環(huán)境分離,按應(yīng)用計算的網(wǎng)絡(luò)帶寬需要就近部署。提供統(tǒng)一的服務(wù)化訪問、小批量數(shù)據(jù)訂閱、數(shù)據(jù)分析計算云平臺環(huán)境?;谠破脚_環(huán)境,應(yīng)用開發(fā)者可自行整合數(shù)據(jù)、構(gòu)建應(yīng)用,數(shù)據(jù)存儲、數(shù)據(jù)整合、平臺組件、數(shù)據(jù)應(yīng)用間相互解耦,建設(shè)的進(jìn)程不會相互制約。
          同時,建立全生命周期數(shù)據(jù)目錄,統(tǒng)一標(biāo)識各項(xiàng)數(shù)據(jù),完善數(shù)據(jù)治理機(jī)制,管理數(shù)據(jù)湖數(shù)據(jù)的生產(chǎn)加工流程,對各項(xiàng)數(shù)據(jù)生成和使用過程進(jìn)行跟蹤記錄,支撐數(shù)據(jù)的應(yīng)用和溯源,是數(shù)據(jù)湖方案順利實(shí)施的關(guān)鍵要素。并且還需要加強(qiáng)數(shù)據(jù)標(biāo)準(zhǔn)的全生命周期流程以及數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)及數(shù)據(jù)質(zhì)量問題收集、自動稽核、問題溯源、影響分析及跟蹤處理等數(shù)據(jù)管理能力??梢圆捎门老x的方式生成數(shù)據(jù)目錄,在不影響數(shù)據(jù)所有者或用戶的情況下自動生成,

          決定數(shù)據(jù)湖能否順利實(shí)施的因素有很多,包括數(shù)據(jù)湖涵蓋哪些數(shù)據(jù)及如何分區(qū)存儲、數(shù)據(jù)湖如何分布式部署、紛繁復(fù)雜的現(xiàn)有IT系統(tǒng)數(shù)據(jù)如何入湖、數(shù)據(jù)和應(yīng)用能否分離、數(shù)據(jù)湖與現(xiàn)有各類數(shù)據(jù)平臺的演進(jìn)關(guān)系等。當(dāng)然,更重要的是數(shù)據(jù)管理思維的轉(zhuǎn)變,這是一切的基礎(chǔ)。

          04?電信運(yùn)營商數(shù)據(jù)湖實(shí)施的要點(diǎn)

          針對運(yùn)營商數(shù)據(jù)湖的實(shí)施,提出如下4個方面的關(guān)鍵要點(diǎn)及建議。
          要點(diǎn)1:數(shù)據(jù)湖分區(qū)
          數(shù)據(jù)湖邏輯上可劃分為生產(chǎn)數(shù)據(jù)區(qū)、原生數(shù)據(jù)區(qū)、整合數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)4個大的存儲區(qū)域。數(shù)據(jù)湖的應(yīng)用可基于PaaS平臺按需使用各個區(qū)的數(shù)據(jù),4個區(qū)的數(shù)據(jù)目錄、元數(shù)據(jù)、數(shù)據(jù)加工處理流程及數(shù)據(jù)應(yīng)用需要統(tǒng)一管理、維護(hù)和治理。
          生產(chǎn)數(shù)據(jù)區(qū)
          M/B/O系統(tǒng)生產(chǎn)數(shù)據(jù)的存儲區(qū)域,涵蓋實(shí)時交易型數(shù)據(jù)、實(shí)時/準(zhǔn)實(shí)時網(wǎng)絡(luò)采集數(shù)據(jù)等,可以是關(guān)系型和非關(guān)系型混搭的存儲結(jié)構(gòu),各生產(chǎn)系統(tǒng)需要進(jìn)行架構(gòu)優(yōu)化,數(shù)據(jù)與應(yīng)用分層解耦,將數(shù)據(jù)存入生產(chǎn)數(shù)據(jù)區(qū)。
          原生數(shù)據(jù)區(qū)
          將各系統(tǒng)的生產(chǎn)數(shù)據(jù)直接寫入數(shù)據(jù)湖原生數(shù)據(jù)區(qū),以非關(guān)系型數(shù)據(jù)格式存儲生產(chǎn)系統(tǒng)數(shù)據(jù),方便各數(shù)據(jù)應(yīng)用使用,生產(chǎn)數(shù)據(jù)和原生數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)一致。原生數(shù)據(jù)區(qū)涵蓋企業(yè)的任何內(nèi)容,無限接近企業(yè)各系統(tǒng)、部門的敏感信息。供數(shù)據(jù)湖科學(xué)家和技術(shù)人員訪問使用。
          整合數(shù)據(jù)區(qū)
          存儲按照數(shù)據(jù)分析需求建模加工后的公用數(shù)據(jù)。模型從生產(chǎn)/原生數(shù)據(jù)模型派生而來,被業(yè)務(wù)和IT部門熟知,可供企業(yè)各種應(yīng)用程序使用。原生數(shù)據(jù)區(qū)中依然有很多數(shù)據(jù)或?qū)傩詻]有被真正理解,并未完全包含在這個數(shù)據(jù)區(qū)的模型中。
          匯總數(shù)據(jù)區(qū)
          存儲按需求分析匯總的結(jié)果數(shù)據(jù),一般可存儲在關(guān)系型數(shù)據(jù)存儲內(nèi),便于數(shù)據(jù)服務(wù)的快速加載呈現(xiàn)。
          數(shù)據(jù)湖生產(chǎn)數(shù)據(jù)區(qū)和原生數(shù)據(jù)區(qū)作為最重要的數(shù)據(jù)分區(qū),是數(shù)據(jù)湖內(nèi)數(shù)據(jù)整合和匯總的源頭數(shù)據(jù),數(shù)據(jù)質(zhì)量必須得到保障。另外,數(shù)據(jù)湖雖不鼓勵應(yīng)用特定模型,但也可劃分特定數(shù)據(jù)區(qū)給私有應(yīng)用使用,提供快速構(gòu)建數(shù)據(jù)應(yīng)用的途徑,這些應(yīng)用獲取數(shù)據(jù)湖數(shù)據(jù)且具有數(shù)據(jù)處理能力,數(shù)據(jù)湖構(gòu)建初期,可將已有業(yè)務(wù)應(yīng)用數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖特定數(shù)據(jù)區(qū)中。電信運(yùn)營商數(shù)據(jù)湖數(shù)據(jù)分區(qū)示例如圖4所示。

          要點(diǎn)2:數(shù)據(jù)湖部署
          數(shù)據(jù)湖部署方案的設(shè)計需要考慮如下要素:
          • 現(xiàn)有BSS/OSS系統(tǒng)分省/總部兩級建設(shè)和維護(hù),源系統(tǒng)模型屬地管理;網(wǎng)絡(luò)/平臺數(shù)據(jù)量大,且貼近網(wǎng)絡(luò)建設(shè)歸屬地,屬地應(yīng)用占比大;
          • M/B/O及網(wǎng)絡(luò)/平臺之間數(shù)據(jù)松耦合,主要通過企業(yè)主數(shù)據(jù)進(jìn)行銜接。數(shù)據(jù)湖原生數(shù)據(jù)區(qū)和生產(chǎn)數(shù)據(jù)區(qū)與數(shù)據(jù)源系統(tǒng)就近分布式部署(總部1+省市31模式)。
          • 生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)由生產(chǎn)系統(tǒng)按需分區(qū)、分片部署,即支撐生產(chǎn)應(yīng)用交易處理,也支撐實(shí)時網(wǎng)絡(luò)數(shù)據(jù)采集和應(yīng)用。
          • 原生數(shù)據(jù)云節(jié)點(diǎn)與生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)就近、集中部署,靠近數(shù)據(jù)歸屬地,數(shù)據(jù)實(shí)時從生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)寫入原生數(shù)據(jù)云節(jié)點(diǎn)。原生數(shù)據(jù)云節(jié)點(diǎn)可再細(xì)分為核心數(shù)據(jù)區(qū)(如客戶、銷售品、產(chǎn)品、服務(wù)、資源、組織、人員等)、BSS數(shù)據(jù)區(qū)、OSS數(shù)據(jù)區(qū)、MSS數(shù)據(jù)區(qū)、網(wǎng)絡(luò)/平臺數(shù)據(jù)區(qū)。
          數(shù)據(jù)湖整合、匯總數(shù)據(jù)云節(jié)點(diǎn)采用1+N模式部署,統(tǒng)一管理、控制和調(diào)度節(jié)點(diǎn)環(huán)境,兼顧全網(wǎng)統(tǒng)一和個性化應(yīng)用需求,數(shù)據(jù)科學(xué)家逐步探索和建模數(shù)據(jù),開放數(shù)據(jù)應(yīng)用。1+N模式中的“1”支撐全網(wǎng)應(yīng)用,“N”支撐省內(nèi)應(yīng)用,并作為創(chuàng)新基地,有條件、數(shù)據(jù)量大、應(yīng)用豐富的省可選擇建設(shè)N分區(qū)。分區(qū)節(jié)點(diǎn)內(nèi)可按照應(yīng)用范圍(全局需求、特定需求)、地域歸屬(集團(tuán)、?。?、數(shù)據(jù)層次(整合、匯總)、數(shù)據(jù)分級(普通、密級)等進(jìn)一步分區(qū)存儲。
          電信運(yùn)營商數(shù)據(jù)湖部署方案示例如圖5所示。

          要點(diǎn)3:IT系統(tǒng)數(shù)據(jù)入湖
          數(shù)據(jù)湖的建設(shè)不可能一蹴而就,需要根據(jù)運(yùn)營商IT系統(tǒng)建設(shè)情況分別采用不同策略進(jìn)行數(shù)據(jù)入湖演進(jìn)。電信運(yùn)營商IT系統(tǒng)入湖方案示例如圖6所示。

          方式一:數(shù)據(jù)同步方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)已全網(wǎng)統(tǒng)一的場景,生產(chǎn)數(shù)據(jù)直接同步寫入原生數(shù)據(jù)區(qū),如BSS、MSS、傳統(tǒng)OSS。
          方式二:數(shù)據(jù)同步/轉(zhuǎn)換方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)并未全網(wǎng)統(tǒng)一的場景,如BSS、MSS、傳統(tǒng)OSS。將非標(biāo)準(zhǔn)生產(chǎn)數(shù)據(jù)寫入原生數(shù)據(jù)區(qū),支撐省內(nèi)整合匯總應(yīng)用及集團(tuán)標(biāo)準(zhǔn)的寬表需求;將非標(biāo)準(zhǔn)生產(chǎn)數(shù)據(jù)按全網(wǎng)統(tǒng)一標(biāo)準(zhǔn)轉(zhuǎn)換,提供給全網(wǎng)數(shù)據(jù)整合匯總及數(shù)據(jù)治理使用。
          方式三:數(shù)據(jù)正本方式。適合交易型系統(tǒng)新建模式,如新一代OSS資源、編排、告警等。正本數(shù)據(jù)寫入生產(chǎn)數(shù)據(jù)區(qū),統(tǒng)一模型和主數(shù)據(jù)標(biāo)準(zhǔn),基于交易型PaaS平臺完成應(yīng)用;生產(chǎn)數(shù)據(jù)區(qū)數(shù)據(jù)直接寫入原生數(shù)據(jù)區(qū)。
          方式四:采集入庫方式。適合網(wǎng)絡(luò)監(jiān)控分析型系統(tǒng)新建模式,如新一代OSS的網(wǎng)絡(luò)采集數(shù)據(jù)、資源拓?fù)?、深度分組檢測(DPI)數(shù)據(jù)等。數(shù)據(jù)采集文件、流數(shù)據(jù)等暫存在生產(chǎn)數(shù)據(jù)區(qū);寫入原生數(shù)據(jù)區(qū)后,生產(chǎn)數(shù)據(jù)區(qū)不再保留;統(tǒng)一原生數(shù)據(jù)模型和主數(shù)據(jù)標(biāo)準(zhǔn),基于實(shí)時和非實(shí)時PaaS平臺完成分析型應(yīng)用。
          點(diǎn)4:數(shù)據(jù)湖數(shù)據(jù)與應(yīng)用分離
          數(shù)據(jù)湖通過數(shù)據(jù)服務(wù)平臺、數(shù)據(jù)共享平臺及統(tǒng)一數(shù)據(jù)應(yīng)用環(huán)境按需支持交易類、實(shí)時監(jiān)控類、分析類應(yīng)用。數(shù)據(jù)增、刪、改、查服務(wù)統(tǒng)一部署在數(shù)據(jù)服務(wù)平臺上,供交易類應(yīng)用訪問調(diào)用;通過訂閱需要監(jiān)控的數(shù)據(jù),由數(shù)據(jù)共享平臺將數(shù)據(jù)實(shí)時分發(fā)給監(jiān)控類應(yīng)用使用;數(shù)據(jù)的加工整合、分析應(yīng)用、海量搜索、人工智能等應(yīng)用均可部署在應(yīng)用環(huán)境內(nèi),按需動態(tài)加載并臨時存儲數(shù)據(jù),結(jié)果寫回到數(shù)據(jù)湖存儲環(huán)境,以服務(wù)方式啟動任務(wù)和查詢結(jié)果數(shù)據(jù)。其中,應(yīng)用環(huán)境公共組件隨著技術(shù)的更新不斷疊加,逐漸平臺化共享,暫時無法滿足應(yīng)用需求的可由應(yīng)用在統(tǒng)一環(huán)境內(nèi)部署組件及加載數(shù)據(jù)。
          數(shù)據(jù)湖應(yīng)用加載數(shù)據(jù)的方式可分為實(shí)時增量加載、準(zhǔn)實(shí)時增量/全量加載、離線批量加載等,數(shù)據(jù)可按需全量或增量短期加載。對于應(yīng)用和數(shù)據(jù)無法解耦的組件(如Hive、MPP等),按需復(fù)制數(shù)據(jù),以空間換數(shù)據(jù)管理和應(yīng)用的靈活性;對于應(yīng)用和數(shù)據(jù)可以有效解耦的組件(如Spark等),可以按需動態(tài)、實(shí)時加載數(shù)據(jù)。應(yīng)用組件逐漸由與數(shù)據(jù)緊耦合的組件向與數(shù)據(jù)松耦合的組件演進(jìn)。
          數(shù)據(jù)湖采用讀寫分離、應(yīng)用計算與數(shù)據(jù)存儲分離、關(guān)系數(shù)據(jù)與非關(guān)系數(shù)據(jù)存儲并存的模式,并提供數(shù)據(jù)存儲節(jié)點(diǎn)分布式部署、服務(wù)化訪問及統(tǒng)一數(shù)據(jù)加載、共享及分發(fā)能力,降低數(shù)據(jù)湖數(shù)據(jù)存儲訪問負(fù)載,提升數(shù)據(jù)的可用性及數(shù)據(jù)訪問效率。由數(shù)據(jù)湖提供數(shù)據(jù)的統(tǒng)一遷移,包括主從庫的復(fù)制、關(guān)系庫到非關(guān)系庫的數(shù)據(jù)轉(zhuǎn)換等;提供統(tǒng)一的關(guān)系和非關(guān)系庫數(shù)據(jù)訪問及分布式數(shù)據(jù)路由以及數(shù)據(jù)共享開放和訂閱分發(fā)管理框架,實(shí)現(xiàn)高效的數(shù)據(jù)訪問;提供統(tǒng)一的數(shù)據(jù)應(yīng)用環(huán)境管理,包括配額管理、數(shù)據(jù)訪問權(quán)限管理、數(shù)據(jù)回寫節(jié)點(diǎn)分配管理等,獨(dú)立部署分析計算類應(yīng)用,分析計算節(jié)點(diǎn)與數(shù)據(jù)湖數(shù)據(jù)存儲節(jié)點(diǎn)分離;提供統(tǒng)一的分布式服務(wù)運(yùn)行框架,基于服務(wù)調(diào)用實(shí)現(xiàn)交易類增、刪、改、查應(yīng)用的數(shù)據(jù)訪問,避免直接操作數(shù)據(jù)。電信運(yùn)營商數(shù)據(jù)湖應(yīng)用方案示例如圖7所示。

          要點(diǎn)5:數(shù)據(jù)湖數(shù)據(jù)統(tǒng)一管理
          數(shù)據(jù)湖的實(shí)施,需要實(shí)現(xiàn)模型和主數(shù)據(jù)標(biāo)準(zhǔn)的動態(tài)維護(hù)以及數(shù)據(jù)的集中治理,避免數(shù)據(jù)湖成為數(shù)據(jù)墓地。而數(shù)據(jù)來源眾多,數(shù)據(jù)管理需要依賴于多方的密切合作以及數(shù)據(jù)標(biāo)準(zhǔn)管理、目錄/元數(shù)據(jù)管理、應(yīng)用/服務(wù)管理、質(zhì)量等管理及海量數(shù)據(jù)探索分析等高效的管理工具。電信運(yùn)營商數(shù)據(jù)湖管理體系示例如圖8所示。

          電信運(yùn)營商數(shù)據(jù)涉及系統(tǒng)眾多、關(guān)系復(fù)雜,沒有任何一個獨(dú)立的團(tuán)隊能夠通曉所有的數(shù)據(jù)模型和關(guān)聯(lián)關(guān)系,因此需要企業(yè)數(shù)據(jù)管理團(tuán)隊與專業(yè)數(shù)據(jù)管理團(tuán)隊分工合作,共同完成數(shù)據(jù)模型標(biāo)準(zhǔn)/主數(shù)據(jù)的管理及數(shù)據(jù)集中治理。建立橫縱向一體化的數(shù)據(jù)管理體系,明確企業(yè)數(shù)據(jù)管理和原生數(shù)據(jù)部門職責(zé)分工,固化數(shù)據(jù)管理流程制度。
          企業(yè)數(shù)據(jù)管理團(tuán)隊負(fù)責(zé)統(tǒng)籌標(biāo)準(zhǔn)和主數(shù)據(jù)管理及數(shù)據(jù)治理工作,負(fù)責(zé)數(shù)據(jù)建模挖掘和跨專業(yè)數(shù)據(jù)治理協(xié)作,負(fù)責(zé)為業(yè)務(wù)部門和應(yīng)用開發(fā)者提供數(shù)據(jù)建模和平臺技術(shù)支持;專業(yè)數(shù)據(jù)管理團(tuán)隊負(fù)責(zé)建立專業(yè)數(shù)據(jù)的模型標(biāo)準(zhǔn)和管理主數(shù)據(jù),識別數(shù)據(jù)問題及跟蹤處理;數(shù)據(jù)湖應(yīng)用開發(fā)者負(fù)責(zé)提出數(shù)據(jù)需求,按需整合和構(gòu)建應(yīng)用,反饋數(shù)據(jù)問題,評估數(shù)據(jù)變更影響。
          另外,作為企業(yè)最核心的數(shù)據(jù)資產(chǎn),其全生命周期的安全管理非常重要。需要針對數(shù)據(jù)采集、數(shù)據(jù)存儲(生產(chǎn)數(shù)據(jù)、原生數(shù)據(jù)、整合數(shù)據(jù)、匯總數(shù)據(jù))、數(shù)據(jù)應(yīng)用、數(shù)據(jù)服務(wù)、數(shù)據(jù)分發(fā)共享等環(huán)節(jié)構(gòu)建端到端的安全管控體系。對涉及用戶行為特征及關(guān)鍵信息的敏感數(shù)據(jù)進(jìn)行統(tǒng)一處理,脫敏后提供給應(yīng)用使用;不管是敏感數(shù)據(jù)還是非敏感數(shù)據(jù),所有數(shù)據(jù)的直接訪問均在數(shù)據(jù)湖的管理范圍內(nèi)進(jìn)行,具體措施包括數(shù)據(jù)應(yīng)用環(huán)境、服務(wù)訪問環(huán)境、共享分發(fā)環(huán)境、數(shù)據(jù)存儲環(huán)境統(tǒng)一管控,需要經(jīng)過統(tǒng)一的對象和屬性等的鑒權(quán)才能訪問數(shù)據(jù),數(shù)據(jù)不出數(shù)據(jù)湖(即數(shù)據(jù)訪問不出臺),只能使用服務(wù)化方式或經(jīng)過鑒權(quán)認(rèn)證的數(shù)據(jù)共享分發(fā)方式進(jìn)行數(shù)據(jù)訪問。同時需要對大數(shù)據(jù)安全事件具備閉環(huán)管控能力,增強(qiáng)數(shù)據(jù)安全事件快速分析能力,提升安全事件發(fā)生后的應(yīng)對處置效率。

          作者:謝曉軍 石彥彬 胡軍軍 喻琦

          來源:CIO之家


          推薦閱讀:

          世界的真實(shí)格局分析,地球人類社會底層運(yùn)行原理

          不是你需要中臺,而是一名合格的架構(gòu)師(附各大廠中臺建設(shè)PPT)

          億級(無限級)并發(fā),沒那么難

          論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

          華為干部與人才發(fā)展手冊(附PPT)

          企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!

          【中臺實(shí)踐】華為大數(shù)據(jù)中臺架構(gòu)分享.pdf

          華為的數(shù)字化轉(zhuǎn)型方法論

          華為如何實(shí)施數(shù)字化轉(zhuǎn)型(附PPT)

          超詳細(xì)280頁Docker實(shí)戰(zhàn)文檔!開放下載

          華為大數(shù)據(jù)解決方案(PPT)


          瀏覽 25
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美极品三级 | 亚洲国产情侣小视频 | 内射免费视频 | 米奇影院一区二区三区免费观看视频 | 小早川怜子无码 |