<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么云原生數(shù)據(jù)湖值得關注?

          共 3774字,需瀏覽 8分鐘

           ·

          2022-06-20 15:53

          作者 | 武穆
          審校 | 莫奇
          最近幾年,“數(shù)據(jù)湖”正在被越來越多人提起,盡管各方對數(shù)據(jù)湖的定義并不統(tǒng)一,但這不妨礙企業(yè)紛紛下水實踐,比如亞馬遜、阿里、騰訊、華為等,都在探索建設數(shù)據(jù)湖。

          為何眾多企業(yè)在“數(shù)據(jù)湖是什么”上還沒有達成共識的情況下,就開始著手進軍數(shù)據(jù)湖領域呢?

          一個可能的原因是,數(shù)據(jù)湖將代表大數(shù)據(jù)和AI時代融合存儲和計算的全新體系,特別是數(shù)據(jù)湖和云原生結合以后,這一趨勢更加明顯。

          要想理解這一點,還要從數(shù)據(jù)湖的發(fā)展說起。



          PART 01

          數(shù)據(jù)湖的崛起



          2010年Pentaho公司的創(chuàng)始人兼首席技術官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念。詹姆斯·狄克遜把數(shù)據(jù)湖中的數(shù)據(jù)比作原生態(tài)的水——它是未經(jīng)處理的,保留原始結構的。


          數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來湖里獲取、蒸餾提純這些水(數(shù)據(jù))。于是,早期業(yè)界和用戶多把數(shù)據(jù)湖定義為一個集中式的儲存原始格式數(shù)據(jù)的系統(tǒng),可存儲任意規(guī)模的結構化、半結構化、非結構化及二進制的數(shù)據(jù)。


          著大數(shù)據(jù)技術的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴展,內(nèi)涵不斷變化,逐步演變成為集多源異構數(shù)據(jù)統(tǒng)一儲存、多范式計算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。


          這就讓數(shù)據(jù)湖與數(shù)據(jù)倉庫有了很大的不同。


          數(shù)據(jù)倉庫誕生于數(shù)據(jù)庫時代,它的核心思路是把數(shù)據(jù)庫眾多數(shù)據(jù)進行一定格式轉(zhuǎn)換后,定時地復制到另一個庫里做列式存儲,從而滿足企業(yè)查詢和數(shù)據(jù)分析的需求。


          在過去,很多企業(yè)的數(shù)據(jù)以ERP、CRM數(shù)據(jù)為主,數(shù)據(jù)規(guī)模往往是TB級,企業(yè)通常在本地采用數(shù)據(jù)倉庫解決方案來存儲和分析數(shù)據(jù)。但數(shù)據(jù)倉庫這種方式模型范式固定,底層數(shù)據(jù)無法做到多樣變化。


          隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結構化數(shù)據(jù)越來越多,企業(yè)業(yè)務變化越來越快,數(shù)字化轉(zhuǎn)型成為IT行業(yè)的熱點,數(shù)據(jù)需要更深度的價值挖掘,因此需要確保數(shù)據(jù)中保留的原始信息不丟失,應對未來不斷變化的需求。


          傳統(tǒng)的數(shù)據(jù)倉庫無法滿足大數(shù)據(jù)時代企業(yè)對于實時、交互式分析等方面的需求,而數(shù)據(jù)湖擇了“前松后緊”的設計思路,初始化階段放棄嚴格的模式,后置schme,從而獲得更強的靈活性,同時通過統(tǒng)一存儲和計算優(yōu)化來保證數(shù)據(jù)的一致性和性能,這就讓數(shù)據(jù)湖開始在大數(shù)據(jù)領域逐漸受到關注。


          發(fā)展至今,數(shù)據(jù)湖已經(jīng)不再局限于某個技術、某個軟件產(chǎn)品,而是涵蓋數(shù)據(jù)湖存儲、數(shù)據(jù)湖計算、數(shù)據(jù)湖AI的多元化數(shù)據(jù)架構,滿足企業(yè)級用戶的生產(chǎn)管理需求。




          PART 02

          為何數(shù)據(jù)湖與云原生是最佳組合



          隨著以Oracle為代表的數(shù)據(jù)庫中間件越來越難以滿足企業(yè)業(yè)務迅速變化帶來的數(shù)據(jù)處理需求,IT業(yè)界不斷地產(chǎn)生新的計算引擎,比如,企業(yè)開始紛紛自建開源Hadoop數(shù)據(jù)湖架構,原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主,存儲和計算一體。

          但這種架構的缺點是需要企業(yè)自己運維和管理整套集群,成本高且集群穩(wěn)定性較差。

          在這種情況下,云上托管Hadoop數(shù)據(jù)湖架構(即EMR開源數(shù)據(jù)湖)應運而生。底層物理服務器和開源軟件版本由云廠商提供和管理,數(shù)據(jù)仍統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主。

          這個架構通過云上IaaS層提升了機器層面的彈性和穩(wěn)定性,使企業(yè)的整體運維成本有所下降,但企業(yè)仍然需要對HDFS系統(tǒng)以及服務運行狀態(tài)進行管理和治理,即應用層的運維工作。

          因為存儲和計算耦合在一起,穩(wěn)定性不是最優(yōu),兩種資源無法獨立擴展,使用成本也不是最優(yōu)。

          同時,受到開源軟件本身能力的限制,傳統(tǒng)數(shù)據(jù)湖技術無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構升級等方面的需求,也無法達到數(shù)據(jù)湖架構的理想目標。

          云計算可以讓數(shù)據(jù)湖發(fā)揮出最大的價值與作用。云計算擁有極為靈活、彈性和可擴展的計算存儲資源,使得數(shù)據(jù)的存儲、分析和應用變得無比容易;而數(shù)據(jù)湖最大的價值在于將企業(yè)內(nèi)各種格式的數(shù)據(jù)統(tǒng)一匯聚,在一份數(shù)據(jù)之上進行多種分析,高性價比且高效地挖掘數(shù)據(jù)價值,特別是數(shù)據(jù)湖的設計思路與云計算天然契合,因此自2010年數(shù)據(jù)湖概念被提出以來,云服務商是數(shù)據(jù)湖概念走向落地的重要推手。

          隨著云原生時代到來,當數(shù)據(jù)湖以云原生(當提到云原生時,很多人的第一反應是Serverless、容器化這些概念,其實近些年來,云原生的概念逐步泛化,涵蓋了很多產(chǎn)品服務,從某種程度上講,云原生是一種分布式系統(tǒng)的設計范式,這種范式具備彈性、安全、穩(wěn)定等特征)的方式部署時,其強大的性能優(yōu)勢可以被最大化釋放。

          一方面,數(shù)據(jù)湖上云后可以享受云本身帶來的性能提升,如高可用(相較于自建IDC,云環(huán)境擁有更多的資源冗余,一節(jié)點發(fā)生故障可以無縫切換到其他節(jié)點,確保業(yè)務的連續(xù)性)、彈性(云計算具備動態(tài)擴充性與可負擔性,可以解決海量業(yè)務帶來的吞吐和IO性能瓶頸,滿足大數(shù)據(jù)分析所需資源的龐大規(guī)模與突發(fā)性質(zhì)的需求)、敏捷(云讓企業(yè)從重復、復雜的底層IT工作中釋放出來,同時其模塊化、松耦合的敏捷架構有利于數(shù)據(jù)產(chǎn)品的快速迭代、部署、運維與創(chuàng)新)。

          另一方面,數(shù)據(jù)湖在云原生的環(huán)境中可以做更多性能優(yōu)化的工作,如豐富的上下文帶來的分析加速,流失處理和批式處理的融合帶來的實時數(shù)據(jù)價值釋放,一站式數(shù)據(jù)管理方案帶來的安全和質(zhì)量改善等。

          這就讓企業(yè)得以有效利用公有云的基礎設施,數(shù)據(jù)湖平臺也有了更多的技術選擇,比如云上純托管的存儲系統(tǒng)逐步取代HDFS,成為數(shù)據(jù)湖的存儲基礎設施,并且引擎豐富度也不斷擴展。

          總之,云特有的“池化、彈性、敏捷”等特性,讓數(shù)據(jù)層與應用層的很多設想得以實現(xiàn),擁抱云原生成為數(shù)據(jù)湖乃至大數(shù)據(jù)的必然選擇。



          PART 03

          展望云原生數(shù)據(jù)湖的未來




          如果對云原生數(shù)據(jù)湖做一個概括的話,云原生數(shù)據(jù)湖是大數(shù)據(jù)計算平臺借助云計算理論發(fā)展出來的新技術產(chǎn)品,其支持異構數(shù)據(jù)靈活存儲、計算資源彈性伸縮,能夠幫助企業(yè)應對當前數(shù)據(jù)結構愈發(fā)復雜、數(shù)據(jù)處理時效性要求不斷變高的業(yè)務環(huán)境。


          也就是說,云原生數(shù)據(jù)湖只是一種架構原理,其具體實現(xiàn)的方式多種多樣,基于EMR可以做云原生數(shù)據(jù)湖,基于Flink也可以做云原生數(shù)據(jù)湖。


          不過需要說明的是,雖然中國數(shù)據(jù)湖技術正在逐年發(fā)展與突破,公有云廠商及其他廠商紛紛在嘗試,但目前在數(shù)據(jù)感知收集及歸類清洗方面存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗不足。總的來說,我國數(shù)據(jù)湖市場整體發(fā)展處于初期階段,技術路線不統(tǒng)一,業(yè)內(nèi)產(chǎn)品能力良莠不齊。


          從應用現(xiàn)狀來看,數(shù)據(jù)湖在國內(nèi)的落地還存在許多痛點。


          產(chǎn)品層面,數(shù)據(jù)湖的數(shù)據(jù)治理能力和全鏈路能力仍需要進一步加強


          就數(shù)據(jù)治理而言,數(shù)據(jù)治理要求在目錄中包含數(shù)據(jù)的分類、規(guī)則,如果企業(yè)對于數(shù)據(jù)湖的掌控能力不足,會導致數(shù)據(jù)湖目錄及整體架構設計不良,湖內(nèi)數(shù)據(jù)未得到充分歸檔或維護,容易形成數(shù)據(jù)沼澤。因缺少上下文元數(shù)據(jù)關聯(lián),數(shù)據(jù)沼澤無法進行數(shù)據(jù)檢索,致使用戶無法有效分析和利用數(shù)據(jù)。


          就全鏈路能力而言,現(xiàn)階段國內(nèi)可以提供全鏈路云原生數(shù)據(jù)湖服務的供應商較少,大多廠商僅提供數(shù)據(jù)湖組件的支持,因此下游需求企業(yè)只能采購多家供應商來滿足自身從數(shù)據(jù)采集治理到分析可視化的需求。


          應用層面,云原生數(shù)據(jù)湖的行業(yè)認知和人才培養(yǎng)較為薄弱。人才方面,目前大數(shù)據(jù)、AI技術棧的發(fā)展日新月異,企業(yè)缺乏專業(yè)人才。從企業(yè)內(nèi)部來看,管理者對數(shù)據(jù)治理一知半解,若在沒有深入梳理企業(yè)業(yè)務現(xiàn)狀及需求的情況下盲目搭建數(shù)據(jù)湖,追求大而全的概念,可能導致數(shù)據(jù)湖的落地效果不佳。行業(yè)認知方面,盡管數(shù)據(jù)的價值屬性已經(jīng)獲得業(yè)界的廣泛共識,但是選擇觀望的企業(yè)仍舊占絕大多數(shù),數(shù)據(jù)湖在認知和推廣上仍面臨多方面的挑戰(zhàn)。


          另外,隨著企業(yè)數(shù)字化轉(zhuǎn)型進入深水區(qū),數(shù)據(jù)已經(jīng)成為企業(yè)的核心生產(chǎn)要素,而數(shù)據(jù)湖的最大風險之一就是安全性和訪問控制。大量數(shù)據(jù)在沒有任何監(jiān)管的情況下流入湖泊,一旦某些數(shù)據(jù)包含其他數(shù)據(jù)沒有的隱私和法規(guī)要求,將可能發(fā)生數(shù)據(jù)泄露和遺失,帶來不可估量的后果。


          當然,任何一個行業(yè)在發(fā)展初期都會存在這樣那樣的問題,有不完善的地方恰恰意味著這個行業(yè)還有發(fā)展的空間。根據(jù)艾瑞咨詢的分析,由于國家政策利好,比如國家接連出臺《促進大數(shù)據(jù)發(fā)展行動綱要》《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》等文件推動大數(shù)據(jù)產(chǎn)業(yè)走向成熟,以及互聯(lián)網(wǎng)技術高速發(fā)展的驅(qū)動、企業(yè)數(shù)字化轉(zhuǎn)型加速等因素,預計中國云原生數(shù)據(jù)湖市場未來會以39.7%的復合增長率快速發(fā)展。

          所以,云原生數(shù)據(jù)湖未來的發(fā)展前景值得我們期待和關注。



          (歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)


          聯(lián)系我們

          掃描二維碼關注我們

          微信:SZH9543
          郵箱:[email protected]
          QQ:2286075659

          熱門文章


          甲方徹底蚌埠住了:吃完數(shù)倉的虧,又上數(shù)據(jù)湖的當?


          工業(yè)企業(yè)數(shù)字化轉(zhuǎn)型中的數(shù)據(jù)治理!


          好書導讀:《華為數(shù)字化轉(zhuǎn)型之道》(官方最新出版)


          大數(shù)據(jù)轉(zhuǎn)型方案:首推數(shù)據(jù)湖!


          基于數(shù)字孿生平臺的應用場景案例


          2022一定不能再錯過的技術——數(shù)據(jù)湖排第一!

          我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。

          我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。

          我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。


          了解更多精彩內(nèi)容




          長按,識別二維碼,關注我們吧!

          數(shù)據(jù)工匠俱樂部

          微信號:zgsjgjjlb

          專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。

          瀏覽 71
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中国美女操逼 | 日韩乱码人妻无码超清蜜桃丨 | 大香蕉欧美视频 | 色小姐中文字幕 | 国产精品揄拍一区二区 |