<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)中臺:為什么會出現(xiàn)數(shù)據(jù)孤島和應(yīng)用孤島

          共 2872字,需瀏覽 6分鐘

           ·

          2021-07-04 10:38


          導(dǎo)讀:企業(yè)已經(jīng)進(jìn)入了數(shù)據(jù)管理的高級階段,需要全局的數(shù)據(jù)治理、數(shù)據(jù)能力的復(fù)用和共享以及云原生架構(gòu)的支撐。在這個階段需要解決的一個重要問題是如何避免數(shù)據(jù)孤島和應(yīng)用孤島。


          作者:彭鋒 宋文欣 孫浩峰
          來源:技術(shù)瑣話(ID:TheoryPractice)




          • 應(yīng)用場景:為什么會出現(xiàn)數(shù)據(jù)孤島和應(yīng)用孤島

          部門A為了解決一些大數(shù)據(jù)問題,采購了廠商X的大數(shù)據(jù)解決方案,安裝了一個大數(shù)據(jù)平臺,導(dǎo)入自己的數(shù)據(jù)并開發(fā)了一些大數(shù)據(jù)應(yīng)用,運(yùn)行得挺不錯。

          這個時候,部門B也需要解決一些大數(shù)據(jù)問題,于是試圖采購廠商Y提供的大數(shù)據(jù)解決方案,但Y的大數(shù)據(jù)平臺和X的有一些版本、組件上的差異,所以需要對X的大數(shù)據(jù)平臺進(jìn)行改造。

          問題是,這個任務(wù)由誰來完成,由誰負(fù)責(zé)改造后的大數(shù)據(jù)平臺的運(yùn)維?有可能廠商Y的大數(shù)據(jù)應(yīng)用也需要做些改造,這可行嗎?部門A的應(yīng)用已經(jīng)運(yùn)行得很好了,部門B的應(yīng)用會不會對部門A的應(yīng)用造成影響(包括性能和數(shù)據(jù)安全的影響)?如果影響了,誰來負(fù)責(zé)?

          比較簡單且快速見效的方法是直接安裝廠商Y提供的端到端的解決方案。照此下去,每個解決方案都會安裝一個新的大數(shù)據(jù)系統(tǒng)。

          還有一個問題是,廠商X和廠商Y底層的數(shù)據(jù)結(jié)構(gòu)可能不是對外公開的,因而它們各自解決自己的問題,雖然開始互不干擾,但是后來就造成了數(shù)據(jù)孤島和煙囪。這個時候,由于各個子系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)不一、數(shù)據(jù)格式不同,各部門之間數(shù)據(jù)無法互聯(lián)互通,很難根據(jù)數(shù)據(jù)做出全局決策。

          解決上面的問題,正是數(shù)據(jù)中臺方法論和架構(gòu)的任務(wù)。TotalPlatform保證所有數(shù)據(jù)應(yīng)用的統(tǒng)一管理,OneID、OneModel確保各子系統(tǒng)中數(shù)據(jù)的互聯(lián)互通,OneService負(fù)責(zé)數(shù)據(jù)能力的共享,TotalInsight確保全局?jǐn)?shù)據(jù)運(yùn)營的高效和價值量化。


          01 全局的數(shù)據(jù)治理

          必須有全局的數(shù)據(jù)治理系統(tǒng)來管理所有子系統(tǒng)的數(shù)據(jù),確保它們能互聯(lián)互通。例如,OneID要求所有關(guān)于用戶的數(shù)據(jù)都必須使用同一個ID,OneModel要求所有數(shù)據(jù)倉庫的模型都必須符合同樣的標(biāo)準(zhǔn)。

          但是這里要指出,解決數(shù)據(jù)孤島和應(yīng)用孤島的問題,除了技術(shù)方案以外,明確責(zé)權(quán)利也很重要。出現(xiàn)孤島的原因之一就是各部門的責(zé)權(quán)利不明晰。如何在使用數(shù)據(jù)中臺解決孤島問題的同時保證責(zé)權(quán)利的明晰,是一個非常重要的問題。


          02 數(shù)據(jù)能力的復(fù)用和共享

          在進(jìn)行全局的數(shù)據(jù)治理的同時,治理的結(jié)果必須能為公司創(chuàng)造價值。這個時候就類似于OneService的功能,既要求能進(jìn)行全局的數(shù)據(jù)能力的復(fù)用和共享,也需要類似TotalInsight的功能,管理全局的數(shù)據(jù)資產(chǎn),量化數(shù)據(jù)能力的投入產(chǎn)出。主要的工作如下:

          • 建立數(shù)據(jù)能力共享的責(zé)權(quán)利機(jī)制;
          • 提供全局的數(shù)據(jù)能力目錄和訪問機(jī)制;
          • 提供數(shù)據(jù)能力共享的工具、機(jī)制和流程;
          • 對共享的數(shù)據(jù)能力的管控和審計;
          • 確保共享的數(shù)據(jù)能力的高效運(yùn)行。


          03 云原生架構(gòu)的支撐

          在這個階段隨著業(yè)務(wù)的不斷增長,越來越多的應(yīng)用程序被添加到大數(shù)據(jù)系統(tǒng)中。先有Spark、Kafka,后有Flink、TensorFlow,現(xiàn)在又有各種新的大數(shù)據(jù)和人工智能組件。

          這些就是在云基礎(chǔ)架構(gòu)上運(yùn)行大數(shù)據(jù)系統(tǒng)的根本原因。而云平臺為分析工作負(fù)載和一般工作負(fù)載提供了極大支持,并提供了云計算技術(shù)的所有好處:易于配置和部署、彈性擴(kuò)展、資源隔離、高資源利用率、高彈性、自動恢復(fù)。

          在云計算環(huán)境中運(yùn)行大數(shù)據(jù)系統(tǒng)的另一個原因是大數(shù)據(jù)工具的發(fā)展。

          傳統(tǒng)的分布式系統(tǒng)(如MySQL集群、Hadoop和MongoDB集群)傾向于處理自己的資源管理和分布式協(xié)調(diào),但是現(xiàn)在由于Kubernetes、Mesos、YARN等分布式資源管理器和調(diào)度程序的出現(xiàn),越來越多的分布式系統(tǒng)(如Spark)將依賴底層分布式框架來提供這些資源分配和程序協(xié)調(diào)調(diào)度的分布式操作原語。

          在這樣的統(tǒng)一框架(見圖4-5)中運(yùn)行它們將大大降低復(fù)雜性并提高運(yùn)行效率。

          ▲圖4-5 云原生架構(gòu)

          04 DataOps

          大部分企業(yè)的數(shù)據(jù)平臺建設(shè)已經(jīng)進(jìn)行到第一階段或第二階段,而要順利過渡到第三階段,則離不開一個關(guān)鍵方法論——DataOps(數(shù)據(jù)運(yùn)維)的幫助。

          DataOps與DevOps十分形似,也有著與DevOps類似的軟件開發(fā)角色,它是數(shù)據(jù)工程師簡化數(shù)據(jù)使用、實(shí)現(xiàn)以數(shù)據(jù)驅(qū)動企業(yè)的方法,也是企業(yè)順利實(shí)現(xiàn)第三階段的關(guān)鍵。因此,本文將介紹DataOps的概念,解釋為什么它對于企業(yè)從數(shù)據(jù)中獲取真正價值、實(shí)現(xiàn)數(shù)字化運(yùn)營以及建設(shè)數(shù)據(jù)中臺都非常重要。

          05 什么是DataOps

          維基百科對DataOps的定義是:一種面向流程的自動化方法,由分析和數(shù)據(jù)團(tuán)隊(duì)使用,旨在提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期。DataOps的這一定義會隨著時間的推移而變化,但其關(guān)鍵目標(biāo)非常明確:提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期。

          在2018年Gartner發(fā)布的《數(shù)據(jù)管理技術(shù)成熟度曲線》報告中,DataOps的概念被首次提出。該報告指出,DataOps雖然可以降低數(shù)據(jù)分析的門檻,但并不會使數(shù)據(jù)分析變成一項(xiàng)簡單的工作。

          與DevOps的落地一樣,實(shí)施成功的數(shù)據(jù)項(xiàng)目也需要做大量的工作,例如深入了解數(shù)據(jù)和業(yè)務(wù)的關(guān)系、樹立良好的數(shù)據(jù)使用規(guī)范和培養(yǎng)數(shù)據(jù)驅(qū)動的公司文化。

          當(dāng)然,DataOps將極大提高人們使用數(shù)據(jù)的效率并降低使用數(shù)據(jù)的門檻,公司可以更快、更早、更好地使用數(shù)據(jù),且成本和風(fēng)險更低。

          本文摘編自《云原生數(shù)據(jù)中臺:架構(gòu)、方法論與實(shí)踐》,經(jīng)出版方授權(quán)發(fā)布。


          延伸閱讀??

          云原生數(shù)據(jù)中臺:架構(gòu)、方法論與實(shí)踐


          推薦語:前Twitter大數(shù)據(jù)平臺主任工程師撰寫,融合硅谷與國內(nèi)經(jīng)驗(yàn),全面講解云原生數(shù)據(jù)中臺架構(gòu)、選型、方法論、實(shí)施路徑,國內(nèi)外專家聯(lián)袂推薦。

          干貨直達(dá)??


          更多精彩??

          在公眾號對話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT | 讀書 | 書單 | 硬核 | 干貨 | 講明白 | 神操作
          大數(shù)據(jù) | 云計算 | 數(shù)據(jù)庫 | Python | 爬蟲 | 可視化
          AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
          5G | 中臺 | 用戶畫像 1024 | 數(shù)學(xué) | 算法 數(shù)字孿生

          據(jù)統(tǒng)計,99%的大咖都關(guān)注了這個公眾號
          ??
          瀏覽 8
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香蕉久久久久 | 91麻豆精品国产91久久久久久久久 | 一级AAAAAA毛片免费 | 男女操逼视频网站入口免费观看1草溜 | 亚洲三级视频手机在线观看 |