<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)湖存儲的現(xiàn)狀和趨勢

          共 2590字,需瀏覽 6分鐘

           ·

          2021-11-14 02:20




          導(dǎo)讀:隨著近幾年數(shù)據(jù)湖概念的興起,業(yè)界對于數(shù)據(jù)倉庫和數(shù)據(jù)湖的對比甚至爭論就一直不斷。有人說數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺,各大云廠商也在紛紛的提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動的特性。


          近幾年數(shù)據(jù)湖的概念非?;馃幔菙?shù)據(jù)湖的定義并不統(tǒng)一,我們先看下數(shù)據(jù)湖的相關(guān)定義。


          Wikipedia對數(shù)據(jù)湖的定義:

          數(shù)據(jù)湖是指使用大型二進制對象或文件這樣的自然格式儲存數(shù)據(jù)的系統(tǒng)。它通常把所有的企業(yè)數(shù)據(jù)統(tǒng)一存儲,既包括源系統(tǒng)中的原始副本,也包括轉(zhuǎn)換后的數(shù)據(jù),比如那些用于報表, 可視化, 數(shù)據(jù)分析和機器學習的數(shù)據(jù)。數(shù)據(jù)湖可以包括關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行與列)、半結(jié)構(gòu)化的數(shù)據(jù)(CSV,日志,XML, JSON),非結(jié)構(gòu)化數(shù)據(jù) (電子郵件、文件、PDF)和 二進制數(shù)據(jù)(圖像、音頻、視頻)。儲存數(shù)據(jù)湖的方式包括 Apache Hadoop分布式文件系統(tǒng), Azure 數(shù)據(jù)湖或亞馬遜云 Lake Formation云存儲服務(wù),以及諸如 Alluxio 虛擬數(shù)據(jù)湖之類的解決方案。數(shù)據(jù)沼澤是一個劣化的數(shù)據(jù)湖,用戶無法訪問,或是沒什么價值。


          AWS的定義相對簡潔:

          數(shù)據(jù)湖是一個集中式存儲庫,允許您以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進行結(jié)構(gòu)化處理),并運行不同類型的分析 – 從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習,以指導(dǎo)做出更好的決策。


          Azure等其他云廠商也有各自的定義,本文不再贅述。


          但無論數(shù)據(jù)湖的定義如何不同,數(shù)據(jù)湖的本質(zhì)其實都包含如下四部分:


          1. 統(tǒng)一的存儲系統(tǒng)

          2. 存儲原始數(shù)據(jù)

          3. 豐富的計算模型/范式

          4. 數(shù)據(jù)湖與上云無關(guān)


          從上述四個標準判斷,開源大數(shù)據(jù)的Hadoop HDFS存儲系統(tǒng)就是一個標準的數(shù)據(jù)湖架構(gòu),具備統(tǒng)一的原始數(shù)據(jù)存儲架構(gòu)。而近期被廣泛談到的數(shù)據(jù)湖,其實是一個狹義的概念,特指“基于云上托管存儲系統(tǒng)的數(shù)據(jù)湖系統(tǒng),架構(gòu)上采用存儲計算分離的體系”。例如基于AWS S3系統(tǒng)或者阿里云OSS系統(tǒng)構(gòu)建的數(shù)據(jù)湖。?


          下圖是數(shù)據(jù)湖技術(shù)架構(gòu)的演進過程,整體上可分為三個階段:


          ▲圖3 數(shù)據(jù)湖技術(shù)架構(gòu)演進


          階段一:自建開源Hadoop數(shù)據(jù)湖架構(gòu),原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主,存儲和計算一體。缺點是需要企業(yè)自己運維和管理整套集群,成本高且集群穩(wěn)定性差。


          階段二:云上托管Hadoop數(shù)據(jù)湖架構(gòu)(即EMR開源數(shù)據(jù)湖),底層物理服務(wù)器和開源軟件版本由云廠商提供和管理,數(shù)據(jù)仍統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主。


          這個架構(gòu)通過云上 IaaS 層提升了機器層面的彈性和穩(wěn)定性,使企業(yè)的整體運維成本有所下降,但企業(yè)仍然需要對HDFS系統(tǒng)以及服務(wù)運行狀態(tài)進行管理和治理,即應(yīng)用層的運維工作。同時因為存儲和計算耦合在一起,穩(wěn)定性不是最優(yōu),兩種資源無法獨立擴展,使用成本也不是最優(yōu)。


          階段三:云上數(shù)據(jù)湖架構(gòu),即云上純托管的存儲系統(tǒng)逐步取代HDFS,成為數(shù)據(jù)湖的存儲基礎(chǔ)設(shè)施,并且引擎豐富度也不斷擴展。除了Hadoop和Spark的生態(tài)引擎之外,各云廠商還發(fā)展出面向數(shù)據(jù)湖的引擎產(chǎn)品。


          如分析類的數(shù)據(jù)湖引擎有AWS Athena和華為DLI,AI類的有AWS Sagemaker。這個架構(gòu)仍然保持了一個存儲和多個引擎的特性,所以統(tǒng)一元數(shù)據(jù)服務(wù)至關(guān)重要,如AWS推出了Glue,阿里云EMR近期也即將發(fā)布數(shù)據(jù)湖統(tǒng)一元數(shù)據(jù)服務(wù)。


          該架構(gòu)相對于原生HDFS的數(shù)據(jù)湖架構(gòu)的優(yōu)勢在于:


          • 幫助用戶擺脫原生HDFS系統(tǒng)運維困難的問題。HDFS系統(tǒng)運維有兩個困難:1)存儲系統(tǒng)相比計算引擎更高的穩(wěn)定性要求和更高的運維風險 2)與計算混布在一起,帶來的擴展彈性問題。存儲計算分離架構(gòu)幫助用戶解耦存儲,并交由云廠商統(tǒng)一運維管理,解決了穩(wěn)定性和運維問題。

          • 分離后的存儲系統(tǒng)可以獨立擴展,不再需要與計算耦合,可降低整體成本

          • 當用戶采用數(shù)據(jù)湖架構(gòu)之后,客觀上也幫助客戶完成了存儲統(tǒng)一化(解決多個HDFS數(shù)據(jù)孤島的問題)


          下圖是阿里云EMR數(shù)據(jù)湖架構(gòu)圖,它是基于開源生態(tài)的大數(shù)據(jù)平臺,既支持HDFS的開源數(shù)據(jù)湖,也支持OSS的云上數(shù)據(jù)湖。


          ▲圖4 阿里云EMR數(shù)據(jù)湖架構(gòu)


          企業(yè)使用數(shù)據(jù)湖技術(shù)構(gòu)建大數(shù)據(jù)平臺,主要包括數(shù)據(jù)接入、數(shù)據(jù)存儲、計算和分析、數(shù)據(jù)管理、權(quán)限控制等,下圖是Gartner定義的一個參考架構(gòu)。當前數(shù)據(jù)湖的技術(shù)因其架構(gòu)的靈活性和開放性,在性能效率、安全控制以及數(shù)據(jù)治理上并不十分成熟,在面向企業(yè)級生產(chǎn)要求時還存在很大挑戰(zhàn)。


          數(shù)據(jù)湖(Data Lake)以集中式存儲各種類型數(shù)據(jù),包括:結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖無需事先定義Schema,數(shù)據(jù)可以按照原始形態(tài)直接存儲,覆蓋多種類型的數(shù)據(jù)輸入源。數(shù)據(jù)湖無縫對接多種計算分析平臺,對Hadoop生態(tài)支持良好,存儲在數(shù)據(jù)湖中的數(shù)據(jù)可以直接對其進行數(shù)據(jù)分析、處理、查詢,通過對數(shù)據(jù)深入挖掘與分析,洞察數(shù)據(jù)中蘊含的價值。


          ? 一份存儲、多種引擎:各種類型的數(shù)據(jù)用集中方式統(tǒng)一存儲在OSS,解決數(shù)據(jù)孤島,避免多份數(shù)據(jù)分散在多種不同的系統(tǒng),無縫對接多種計算引擎,對Hadoop生態(tài)體系有良好支持;


          ? 數(shù)據(jù)無需處理、直接存儲:支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多種類型數(shù)據(jù),數(shù)據(jù)可以按照原始產(chǎn)生的形態(tài)直接存儲,在需要分析階段,再通過數(shù)據(jù)引擎進行處理,對接多種數(shù)據(jù)輸入源,提供便捷的數(shù)據(jù)接入和數(shù)據(jù)消費通道


          ? 計算與存儲解耦合:提供客戶更靈活系統(tǒng)架構(gòu)設(shè)計,讓計算、存儲資源具備更好的擴展性,極大降低運維管理難度、優(yōu)化TCO。


          下載鏈接:

          數(shù)據(jù)湖存儲的現(xiàn)狀和趨勢




          推薦閱讀:

          世界的真實格局分析,地球人類社會底層運行原理

          不是你需要中臺,而是一名合格的架構(gòu)師(附各大廠中臺建設(shè)PPT)

          企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案

          論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?

          企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!

          【中臺實踐】華為大數(shù)據(jù)中臺架構(gòu)分享.pdf

          華為的數(shù)字化轉(zhuǎn)型方法論

          華為如何實施數(shù)字化轉(zhuǎn)型(附PPT)

          超詳細280頁Docker實戰(zhàn)文檔!開放下載

          華為大數(shù)據(jù)解決方案(PPT)


          瀏覽 40
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  影音先锋AV成人 | 乱伦性爱视频 | 欧美xxx在线 | 无码性爱精品 | 日日操夜夜操天天操 |