<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LakeHouse湖倉一體成為下一站燈塔,數(shù)倉、數(shù)據(jù)湖架構(gòu)即將退出群聊

          共 4207字,需瀏覽 9分鐘

           ·

          2021-09-18 02:08


          文章總計3326字,閱讀時長約5分鐘。完整總結(jié)企業(yè)數(shù)據(jù)架構(gòu)發(fā)展史,深度分享KeenData LakeHouse湖倉一體敏捷數(shù)據(jù)平臺的應用以及行業(yè)落地案例。不可錯過!



          摘要:


          當前的大數(shù)據(jù)技術(shù)應用趨勢表明,客戶對單一的數(shù)據(jù)湖和數(shù)倉架構(gòu)并不滿意。近年來幾乎所有的數(shù)據(jù)倉庫都增加了對Parquet和ORC格式的外部表支持,這使數(shù)倉用戶可以從相同的SQL引擎查詢數(shù)據(jù)湖表,但它不會使數(shù)據(jù)湖表更易于管理,也不會消除倉庫中數(shù)據(jù)的ETL復雜性、陳舊性和高級分析挑戰(zhàn)。


          KeenData LakeHouse(湖倉一體)作為新一代大數(shù)據(jù)技術(shù)架構(gòu),將逐漸取代單一數(shù)據(jù)湖和數(shù)倉架構(gòu),成為大數(shù)據(jù)架構(gòu)的下一站燈塔。 


          KeenData LakeHouse(湖倉一體)可定義為基于低成本,可直接訪問存儲的數(shù)據(jù)管理系統(tǒng),它結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫的主要優(yōu)勢,開放格式的低成本存儲可通過前者的各種系統(tǒng)訪問,而后者則具有強大的管理和優(yōu)化功能。數(shù)據(jù)分析師和數(shù)據(jù)科學家可以在同一個數(shù)據(jù)存儲中對數(shù)據(jù)進行操作,同時它也能為企業(yè)的數(shù)據(jù)治理帶來更多的便利性。


          01
          企業(yè)數(shù)據(jù)架構(gòu)發(fā)展史



          第一階段:傳統(tǒng)數(shù)倉


          傳統(tǒng)數(shù)據(jù)倉庫是指從業(yè)務數(shù)據(jù)中創(chuàng)建信息數(shù)據(jù)庫,將業(yè)務數(shù)據(jù)庫的數(shù)據(jù)收集到集中式倉庫來幫助企業(yè)領導者獲得分析見解,然后將其用于決策支持和商業(yè)智能,它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持目的而創(chuàng)建。



          傳統(tǒng)數(shù)倉存儲的數(shù)據(jù)類型,主要是以關(guān)系型數(shù)據(jù)庫組織起來的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過轉(zhuǎn)換、整合以及清理,導入到目標表中。在數(shù)倉中,數(shù)據(jù)存儲的結(jié)構(gòu)與其定義的schema是強匹配的。針對實時數(shù)據(jù)處理,非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在數(shù)據(jù)量支持方面相對有限。



          第二階段:數(shù)據(jù)湖


          數(shù)據(jù)湖是一種不斷演進中、可擴展的大數(shù)據(jù)存儲、處理、分析的基礎設施,它就像一個大型倉庫存儲企業(yè)多樣化原始數(shù)據(jù)以數(shù)據(jù)為導向,實現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理。擁有強大的信息處理能力和處理幾乎無限的并發(fā)任務或工作的能力。



          數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),數(shù)據(jù)可能是任意類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù),并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類企業(yè)級應用。結(jié)合先進的數(shù)據(jù)科學與機器學習技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。


          數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別:


          在儲存方面上:數(shù)據(jù)湖中的數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式僅在分析時再進行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從事務系統(tǒng)中提取。在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會對數(shù)據(jù)進行清理與轉(zhuǎn)換。


          在數(shù)據(jù)抓取中:數(shù)據(jù)湖捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉庫則只捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。數(shù)據(jù)湖的目的是非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學家可能會用具有預測建模和統(tǒng)計分析等功能的高級分析工具。而數(shù)據(jù)倉庫就非常適用于BI分析等操作用途,因為它具有高度結(jié)構(gòu)化。



          第三階段:KeenData LakeHouse(湖倉一體)


          KeenData LakeHouse架構(gòu)成為當下架構(gòu)演進最熱的趨勢,將數(shù)據(jù)倉庫的高性能與管理能力與數(shù)據(jù)湖的靈活性相互融合。 



          企業(yè)創(chuàng)建數(shù)據(jù)倉庫來支持商業(yè)智能,主要場景包括編制報表、發(fā)布下游數(shù)據(jù)集市(Data Marts),以及支持自助式商業(yè)智能等。數(shù)據(jù)湖來自于數(shù)據(jù)科學對數(shù)據(jù)的探索,主要場景包括通過快速實驗創(chuàng)建和檢驗假設,以及利用半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等。


          KeenData LakeHouse的最佳實踐是基于存算分離架構(gòu)來構(gòu)建。存算分離最大的問題在于網(wǎng)絡,特別是對于高頻訪問的數(shù)倉數(shù)據(jù),網(wǎng)絡性能至關(guān)重要。實現(xiàn)Lakehouse 的可選方案很多,比如Delta,Hudi,Iceberg。雖然三者側(cè)重點有所不同,但是都具備數(shù)據(jù)湖通用的一些功能,比如:統(tǒng)一元數(shù)據(jù)管理、支持多元分析引擎、支持高階分析和計算存儲分離。



          如上圖所示:藍色數(shù)據(jù)流是離線數(shù)據(jù)流,實現(xiàn)離線數(shù)據(jù)湖能力,數(shù)據(jù)通過批量集成,存儲到Hudi,再通過Spark進行加工。紅色數(shù)據(jù)流是實時流,數(shù)據(jù)通過CDC實時捕獲,通過Flink實時寫入Hudi;通過Redis做變量緩存,以實現(xiàn)實時數(shù)據(jù)加工處理,之后送到諸如Clickhouse 、Redis、Hbase等專題集市里對外提供服務。


          KeenData LakeHouse有了自己的角色和定位,但是一項技術(shù)的發(fā)展壯大還不能就此停止,它還必須在完善自身功能的基礎上去解決因為它的出現(xiàn)而導致的善后問題以及它出現(xiàn)之前的歷史遺留問題,只有這樣,它才能被真正廣泛接受。比如對于已有的系統(tǒng),特別是企業(yè)已經(jīng)存在的龐大規(guī)模的基于HDFS存儲的數(shù)據(jù)倉庫和基于MPP架構(gòu)的實時數(shù)據(jù)倉庫系統(tǒng),如何按照KeenData LakeHouse架構(gòu)來實行?


          02
          KeenData LakeHouse湖倉一體敏捷數(shù)據(jù)平臺


          基于企業(yè)內(nèi)的這些場景,科杰大數(shù)據(jù)總結(jié)十余年企業(yè)級大數(shù)據(jù)工作開展經(jīng)驗,融合數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢,不斷優(yōu)化數(shù)據(jù)架構(gòu),升級為統(tǒng)一數(shù)據(jù)采集層(離線、實時)、計算中心(離線、實時、機器學習)、服務發(fā)布中心的KeenData LakeHouse湖倉一體敏捷數(shù)據(jù)平臺。



          新架構(gòu)設計在具備數(shù)據(jù)湖開放文件存儲靈活性的同時兼具數(shù)據(jù)倉庫的使用效率,非常適合大規(guī)模下的數(shù)據(jù)集成、標準化、資產(chǎn)化以及數(shù)據(jù)安全管理的需求。



          KeenData LakeHouse湖倉一體敏捷數(shù)據(jù)平臺具備5大能力:


          1、統(tǒng)一數(shù)據(jù)集成,全界面化的數(shù)據(jù)集成能力。


          提供多種數(shù)據(jù)抽取方式,將生產(chǎn)中大量結(jié)構(gòu)化和非結(jié)構(gòu)化的離線、實時數(shù)據(jù)抽取到數(shù)據(jù)倉庫,實現(xiàn)數(shù)據(jù)匯聚為數(shù)據(jù)的資產(chǎn)化和標準化提供數(shù)據(jù)基礎。


          2、打通元數(shù)據(jù),提供集團統(tǒng)一的元數(shù)據(jù)管理能力。


          提供數(shù)據(jù)庫元數(shù)據(jù)管理功能,實現(xiàn)各種數(shù)據(jù)庫和數(shù)倉的元數(shù)據(jù)無縫打通和統(tǒng)一管理;科杰湖倉一體敏捷數(shù)據(jù)平臺將HiveMetaStore 中 Database 映射為平臺內(nèi)的Rowdata,對 Hive Database 的改動會實時反應在這個Rowdata中,實現(xiàn)Lake+House一體化存儲訪問功能。


          3、對不同存儲的數(shù)據(jù)提供統(tǒng)一的開發(fā)管理能力。


          提供多引擎計算能力,支持將多個數(shù)據(jù)存儲內(nèi)的數(shù)據(jù)通過HQL、Spark、MR、Shell等開發(fā)任務,進行統(tǒng)一開發(fā)、智能調(diào)度、數(shù)據(jù)治理和任務管理能力;同時提供跨團隊大規(guī)模項目的協(xié)同開發(fā)能力,極大的提升開發(fā)效率。


          4、一站式、全托管、云原生智能化的敏捷數(shù)據(jù)平臺能力。


          提供全可視化任務開發(fā)配置功能,智能解析任務依賴,并在數(shù)據(jù)處理的全流程提供數(shù)據(jù)質(zhì)量和標準管理,在數(shù)據(jù)從產(chǎn)生到消費的全生命周期自動沉淀數(shù)據(jù)資產(chǎn)。


          5、企業(yè)級高性能、穩(wěn)定性、可靠性


          平臺云原生架構(gòu),系統(tǒng)基于模塊化、組件化、服務化構(gòu)建,支持存儲、服務、計算彈性伸縮。當部分設備發(fā)生故障時,仍可正常運行,滿足企業(yè)對系統(tǒng)可用性的要求,可達99.99%以上。


          03
          KeenData LakeHouse敏捷數(shù)據(jù)平臺的落地應用


          科杰大數(shù)據(jù)服務某能源企業(yè),構(gòu)建湖倉一體架構(gòu)的敏捷數(shù)據(jù)平臺。根據(jù)該能源企業(yè)的業(yè)務發(fā)展目標,結(jié)合數(shù)據(jù)平臺建設的實際業(yè)務要求,面向能源開發(fā)全域數(shù)據(jù)內(nèi)容,覆蓋數(shù)據(jù)處理全過程,搭建大數(shù)據(jù)基礎設施,建設統(tǒng)一數(shù)據(jù)管理與服務體系能力。通過數(shù)據(jù)匯聚、標準化、治理、ETL處理等過程,形成高可用的數(shù)據(jù)資產(chǎn),實現(xiàn)數(shù)據(jù)資產(chǎn)的服務化。同時,運用有效數(shù)據(jù)管理機制,有效管理和提升數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全,實現(xiàn)數(shù)據(jù)資產(chǎn)的自動沉降更新。




          湖倉一體的敏捷數(shù)據(jù)平臺使該客戶在人效方面,數(shù)據(jù)建設及使用效率方面,以及大規(guī)模業(yè)務智能落地方面均有明顯的改善和提升。


          1、企業(yè)人效方面的提升


          相較于傳統(tǒng)大數(shù)據(jù)基礎平臺,單點重復式的煙囪開發(fā)建設到基于敏捷數(shù)據(jù)平臺數(shù)據(jù)資產(chǎn)之上進行高度復用的協(xié)同開發(fā),整體開發(fā)模式和研發(fā)效率是質(zhì)的改變,大大提升人效。


          其次,從數(shù)據(jù)開發(fā)人員方向上,傳統(tǒng)的大數(shù)據(jù)研發(fā)對開發(fā)人員會有一定的技術(shù)壁壘,門檻較高,科杰提供的湖倉一體敏捷數(shù)據(jù)平臺,讓更多的人員在綜合安全管理管控的情況下使用平臺進行自助分析和開發(fā),提高數(shù)據(jù)在企業(yè)內(nèi)流轉(zhuǎn)和使用效率。


          2、企業(yè)數(shù)據(jù)建設及使用效率的提升


          相較于傳統(tǒng)大數(shù)據(jù)基礎平臺,湖倉一體的敏捷數(shù)據(jù)平臺實現(xiàn)存算一體的升級和迭代,進行數(shù)據(jù)全鏈路血緣關(guān)系數(shù)據(jù)資產(chǎn)沉淀,形成統(tǒng)一公司內(nèi)數(shù)據(jù)門戶,大大提升企業(yè)數(shù)據(jù)資產(chǎn)的使用效率。


          3、全面支撐企業(yè)未來大規(guī)模業(yè)務智能落地


          湖倉一體的敏捷數(shù)據(jù)平臺是一套企業(yè)級的大數(shù)據(jù)&AI基礎設施,幫助企業(yè)建立數(shù)據(jù)資產(chǎn)、實現(xiàn)數(shù)據(jù)業(yè)務化、進而推進全線業(yè)務智能化,實現(xiàn)數(shù)據(jù)驅(qū)動下的企業(yè)數(shù)據(jù)智能創(chuàng)新,全面支撐企業(yè)未來大規(guī)模業(yè)務智能落地。



          結(jié)語:


          20年的大數(shù)據(jù)發(fā)展,讓我們看到了數(shù)據(jù)湖與數(shù)據(jù)倉庫的不斷創(chuàng)新與發(fā)展,也看到了湖倉一體化的技術(shù)架構(gòu)為企業(yè)數(shù)據(jù)能力帶來的提升。特別是云原生+大數(shù)據(jù)的時代,湖倉一體更能發(fā)揮出數(shù)據(jù)湖的靈活性與生態(tài)豐富性,以及數(shù)據(jù)倉庫的成長性與企業(yè)級能力。


          未來,基于湖倉一體的數(shù)據(jù)架構(gòu)應用將迎來爆發(fā),以創(chuàng)造數(shù)據(jù)價值為核心目標,以技術(shù)驅(qū)動產(chǎn)品創(chuàng)新升級,推動大規(guī)模數(shù)據(jù)智能化落地,將成為數(shù)字化轉(zhuǎn)型的一片“新藍?!?。


          (歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)

          聯(lián)系我們

          掃描二維碼關(guān)注我們

          微信:SZH9543
          郵箱:[email protected]
          QQ:2286075659

          熱門文章


          企業(yè)數(shù)據(jù)備份規(guī)劃設計


          被開會纏住的大廠人


          企業(yè)數(shù)智化轉(zhuǎn)型?五個要點要記牢|數(shù)智洞察


          從咨詢跳到甲方,我們?nèi)钡氖鞘裁矗?/a>


          中國提出碳中和,到底能得到什么好處?(真想不到?。?/a>


          財資管理六大核心職能:以收付結(jié)算為入口,到集團自金融


          多圖詳解邊緣計算系統(tǒng)的組成及概念

          我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。

          我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。

          我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

          了解更多精彩內(nèi)容


          長按,識別二維碼,關(guān)注我們吧!

          數(shù)據(jù)工匠俱樂部

          微信號:zgsjgjjlb

          專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。

          瀏覽 102
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  4080yy午夜理论片成人 | 国产探花视频网站 | 高清无码在线免费视频 | 男人天堂AV电影 | 性爱福利导航 |