<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          鋪天蓋地云原生,什么才是真正的云原生數(shù)據(jù)倉庫?

          共 6379字,需瀏覽 13分鐘

           ·

          2021-05-28 14:40


          導(dǎo)語 | 分析型數(shù)據(jù)倉庫經(jīng)歷了共享存儲(chǔ)、無共享MPP、SQL-on-Hadoop幾代架構(gòu)的演進(jìn),隨著云計(jì)算的普及,傳統(tǒng)的數(shù)據(jù)倉庫架構(gòu)在資源彈性,成本等方面已經(jīng)很難適應(yīng)云原生的要求。本文由偶數(shù)科技 CEO,騰訊云TVP 常雷在 Techo TVP開發(fā)者峰會(huì)「數(shù)據(jù)的冰與火之歌——從在線數(shù)據(jù)庫技術(shù),到海量數(shù)據(jù)分析技術(shù)」 的《新一代云原生數(shù)據(jù)倉庫的應(yīng)用》演講分享整理而成,為大家詳細(xì)剖析新一代云原生數(shù)據(jù)倉庫的架構(gòu)、原理和實(shí)現(xiàn)技術(shù),以及如何充分應(yīng)用云原生數(shù)據(jù)倉庫的特點(diǎn)來實(shí)現(xiàn)云上大數(shù)據(jù)應(yīng)用。


          點(diǎn)擊可觀看精彩演講視頻


          一、云原生數(shù)據(jù)倉庫的背景與定義


          今天的主要內(nèi)容首先是簡(jiǎn)單介紹云原生數(shù)據(jù)倉庫的背景,定義云原生數(shù)據(jù)倉庫,然后是講常見的云原生數(shù)據(jù)倉庫的架構(gòu),包括架構(gòu)的演進(jìn)及應(yīng)用場(chǎng)景。


          1. 數(shù)據(jù)平臺(tái)的技術(shù)變革歷程


          從大數(shù)據(jù)或數(shù)據(jù)分析的角度看,數(shù)據(jù)平臺(tái)的發(fā)展經(jīng)歷過四個(gè)階段,最早期的階段是最傳統(tǒng)的關(guān)系型數(shù)據(jù)庫階段,當(dāng)時(shí)關(guān)系型數(shù)據(jù)庫剛剛興起,做信息化等早期的一些系統(tǒng)。后來在1990年左右,出現(xiàn)很多數(shù)據(jù)倉庫。在2000年左右出現(xiàn)了大數(shù)據(jù)相關(guān)的一些系統(tǒng),包括現(xiàn)在大家比較熟悉的Hadoop,當(dāng)年我們做的Greenplum等。2015年之后,隨著云的發(fā)展,出現(xiàn)了新一代的云原生數(shù)據(jù)倉庫,我們稱為智能數(shù)據(jù)云平臺(tái)的階段。每個(gè)階段關(guān)注的點(diǎn)其實(shí)不太一樣,環(huán)境、應(yīng)用出現(xiàn)變化的時(shí)候,里面的技術(shù)架構(gòu)也出現(xiàn)了一些大的變革,之后會(huì)詳細(xì)介紹。



          這幾個(gè)階段的技術(shù)有很大的區(qū)別,我主要集中于分析型數(shù)據(jù)庫來介紹。現(xiàn)在很多用戶做交易、分析,如果數(shù)據(jù)量不是特別大,用一個(gè)簡(jiǎn)單的交易型數(shù)據(jù)庫就可以,比如傳統(tǒng)的Oracle、DB2等。最早期這些基本都是共享存儲(chǔ)的系統(tǒng),共享存儲(chǔ)的架構(gòu)的可擴(kuò)展性不好,只能到十幾個(gè)節(jié)點(diǎn),性能相對(duì)來說比較差。


          后面在八十年代,當(dāng)時(shí)Teradata做MPP的一體機(jī),相當(dāng)于軟硬一體,后面出現(xiàn)的MPP基本都是基于普通的X86服務(wù)器的,架構(gòu)變化不大,基本是一種無共享的架構(gòu),節(jié)點(diǎn)之間通過萬兆網(wǎng)絡(luò)連接。這一代的特點(diǎn)也很明顯,它易于使用,性能也較好,但有一個(gè)較大的缺點(diǎn):計(jì)算和存儲(chǔ)是耦合的,如果要做擴(kuò)容,計(jì)算和存儲(chǔ)必須都得擴(kuò),它的可擴(kuò)展性受到一定的限制,一般只能到上百個(gè)節(jié)點(diǎn)或者幾百個(gè)節(jié)點(diǎn),基本做不到再往上擴(kuò)。


          后面出現(xiàn)了Hadoop,當(dāng)年我做的HAWQ其實(shí)是一個(gè)SQL-on-Hadoop引擎,其實(shí)有很多都可以叫SQL-on-Hadoop引擎,比如Hive、SparkSQL等等。但現(xiàn)在也在演化。SQL-on-Hadoop引擎有好處,它的集群規(guī)模可以做得很大,但也有一些缺點(diǎn),比如SQL-on-Hadoop計(jì)算和存儲(chǔ)不是完全分離的。在邏輯上它是分離的,計(jì)算是計(jì)算層,存儲(chǔ)是HDFS,但是物理上大家在部署的時(shí)候基本還是把計(jì)算和存儲(chǔ)部署在一起。Hadoop很大的一個(gè)缺點(diǎn)是它的并發(fā)性不是很好,比如Hive等等,并發(fā)高之后導(dǎo)致性能上不去,很難支持非常高并發(fā)的場(chǎng)景,性能角度來看比MPP還是差一些。


          再之后,在2015年左右出現(xiàn)了云原生架構(gòu),隨著云的發(fā)展,存儲(chǔ)在云上轉(zhuǎn)向?qū)ο蟠鎯?chǔ),相對(duì)HDFS來說對(duì)象存儲(chǔ)會(huì)便宜一些,但性能較差。在云上如果自己再搭建一個(gè)HDFS,運(yùn)維成本較高,所以大家在做云原生架構(gòu)的時(shí)候,存儲(chǔ)基本就用云上的對(duì)象存儲(chǔ),在私有環(huán)境底下當(dāng)然沒關(guān)系,在物理機(jī)上可以用其他的存儲(chǔ);在公有云上,上面的計(jì)算完全是分隔的,這樣就可以做到計(jì)算、存儲(chǔ)可獨(dú)立擴(kuò)容。



          2. 云原生 ? 數(shù)據(jù)庫 = 云原生數(shù)據(jù)庫


          現(xiàn)在說云原生的概念,比如CNCF的概念,一般都是偏應(yīng)用視角的定義。我之前在的EMC是提云原生概念最早的公司,主要是從敏捷開發(fā),DevOps等方面來簡(jiǎn)化應(yīng)用的開發(fā),部署和運(yùn)維等等。云原生火了之后,大家抽象出了很多特性。云原生系統(tǒng)的本質(zhì)特性主要指在各種不同云環(huán)境下可以做到架構(gòu)上彈性可擴(kuò)展、松散耦合、易于管理、易于升級(jí)、易于運(yùn)維、易于交付等等。從云原生數(shù)據(jù)庫系統(tǒng)來說,要做一個(gè)云原生數(shù)據(jù)庫系統(tǒng)是非常復(fù)雜的,要實(shí)現(xiàn)大規(guī)模計(jì)算、存儲(chǔ)、事務(wù)管理等等,大的集群架構(gòu)不像只是在容器里面跑一個(gè)小的應(yīng)用。云原生數(shù)據(jù)庫或者云原生數(shù)據(jù)倉庫還沒有一個(gè)非常好的定義。


          我根據(jù)多年經(jīng)驗(yàn)結(jié)合現(xiàn)在云原生的一些系統(tǒng),梳理出了一個(gè)簡(jiǎn)單的定義。我認(rèn)為云原生數(shù)據(jù)庫是在公有云、私有云和混合云等新型動(dòng)態(tài)環(huán)境中,基于存儲(chǔ)與計(jì)算分離架構(gòu)的、存儲(chǔ)和計(jì)算可以獨(dú)立彈性擴(kuò)展的、松散耦合的數(shù)據(jù)庫系統(tǒng)。因?yàn)閿?shù)據(jù)庫并不只是一個(gè)云原生的應(yīng)用程序,它有數(shù)據(jù)庫的特性,不能因?yàn)樵圃⒋鎯?chǔ)計(jì)算分離,就把很多特性都扔了,還是必須保證性能、可擴(kuò)展性、一致性,包括符合SQL的標(biāo)準(zhǔn)、容錯(cuò)、易于管理和多云支持。多云也是很重要的,這是防止廠商lock in的一種方式。


          3. 云原生數(shù)據(jù)庫的特點(diǎn)


          簡(jiǎn)單說說云原生數(shù)據(jù)庫的一些特點(diǎn),現(xiàn)在很多都說自己是云原生數(shù)據(jù)庫,但其實(shí)不是,比如把Oracle直接放到云上的虛擬機(jī)跑一下,它是不是就叫云原生?不是,因?yàn)樗鼭M足不了很多特點(diǎn)。我覺得有幾大特點(diǎn)能把云原生數(shù)據(jù)庫區(qū)分開。第一個(gè)是從數(shù)據(jù)庫用戶的角度來看,計(jì)算和存儲(chǔ)是分離的,有人說Oracle是不是也是計(jì)算與存儲(chǔ)分離?我底下是EMC的存儲(chǔ),上面是Oracle的數(shù)據(jù)庫,是不是也是存算分離?其實(shí)這個(gè)不算,因?yàn)镺racle整個(gè)的軟件層次,內(nèi)部的存儲(chǔ)是它自己的軟件實(shí)現(xiàn)的,EMC只是硬件的支持。


          我們一般說云原生數(shù)據(jù)庫基本上是分布式的,如果是分析型的,基本上是分布式的存儲(chǔ),比如底下文件系統(tǒng)或者是對(duì)象存儲(chǔ),或者是分布式文件系統(tǒng),又或者是其他自研的一些分布式存儲(chǔ)等等,這是從計(jì)算存儲(chǔ)分離的架構(gòu)區(qū)分開的,這樣存儲(chǔ)、計(jì)算都可以獨(dú)立擴(kuò)容,缺計(jì)算的時(shí)候可以擴(kuò)計(jì)算,缺存儲(chǔ)的時(shí)候可以擴(kuò)存儲(chǔ),節(jié)省成本。


          存算分離的另一個(gè)好處是:一個(gè)查詢用10個(gè)節(jié)點(diǎn)需要跑一個(gè)小時(shí),如果線型可擴(kuò)展、加速比做得很好,100個(gè)節(jié)點(diǎn)可能只需要跑6分鐘,就能把這個(gè)查詢跑出來;但是在云上往往是按照計(jì)算使用量和存儲(chǔ)使用量來計(jì)費(fèi)的,相當(dāng)于用同樣的成本得到了更加好的用戶體驗(yàn)。如果存算是綁定的,要起100個(gè)節(jié)點(diǎn)一直放著,很痛苦,整個(gè)機(jī)器都一會(huì)兒停一會(huì)兒?jiǎn)ⅲ瑪?shù)據(jù)還要持久化,這不太現(xiàn)實(shí),所以這是存算分離包括松散耦合等帶來的很大好處。


          在同樣的計(jì)算環(huán)境下還應(yīng)該保持高性能,因?yàn)榇嫠惴蛛x后有很多優(yōu)化工作需要做,比如存儲(chǔ)分離之后需不需要使用一些緩存來加速?大家如果用過對(duì)象存儲(chǔ)都知道它很慢,對(duì)象存儲(chǔ)的設(shè)計(jì)是為了放一些小的文件、圖片等,并不是為了數(shù)據(jù)庫的工作負(fù)載。所以為了達(dá)到很好的性能,要做很大的優(yōu)化,不能把性能給丟了。


          高可擴(kuò)展性可以保證這個(gè)系統(tǒng),數(shù)據(jù)量越來越大,應(yīng)用越來越多,可以很容易做到擴(kuò)展,但是傳統(tǒng)的MPP集群就做不到這一點(diǎn),云原生數(shù)據(jù)庫則可以保證。


          大家做交易型數(shù)據(jù)庫都說一致性是必須的,但是做分析型數(shù)據(jù)庫一致性是不是必須的呢?現(xiàn)在一致性的觀點(diǎn)是肯定需要事務(wù)處理,很多早期的Hadoop上的分析型系統(tǒng)不支持事務(wù),但后來都支持了,為什么?很多應(yīng)用場(chǎng)景其實(shí)還需要更新,比如拉鏈表等等,在增刪改查的時(shí)候既能保證好事務(wù),又能保證好分析的性能不變。一致性的要求也是云原生數(shù)據(jù)庫的一個(gè)特點(diǎn)。


          在出錯(cuò)的環(huán)境下可以不中斷、易于管理,也是云原生數(shù)據(jù)庫一個(gè)很大的特點(diǎn)。傳統(tǒng)數(shù)據(jù)庫的管理非常復(fù)雜的,而在云上非常簡(jiǎn)單。


          最后一點(diǎn)是多云支持,站在最終用戶的角度,他希望只需要一個(gè)數(shù)據(jù)庫,因?yàn)閿?shù)據(jù)庫的黏性非常強(qiáng),數(shù)據(jù)量進(jìn)來之后再轉(zhuǎn)移相對(duì)比較麻煩,所以很多客戶對(duì)多云的要求非常多。


          從這些特點(diǎn)很容易判斷出一個(gè)聲稱是云原生數(shù)據(jù)庫的數(shù)據(jù)庫是否名副其實(shí),如果只是把Oracle或者M(jìn)ySQL簡(jiǎn)單搬到虛擬機(jī)環(huán)境下,它不能稱為云原生數(shù)據(jù)庫。


          二、云原生數(shù)據(jù)倉庫架構(gòu)


          我以幾個(gè)實(shí)際的大數(shù)據(jù)相關(guān)的云原生數(shù)據(jù)庫架構(gòu)舉例來說明。Snowflake前段時(shí)間剛上市,估值很高,巴菲特也投了這個(gè)公司,業(yè)界一片看好,收入規(guī)模漲得很快。下圖是它的架構(gòu),在這里面有三層,最上面一層是Cloud services,做查詢解析、優(yōu)化、元數(shù)據(jù)管理,包括安全控制等等,如果你了解分布式,這里指的是他們的主節(jié)點(diǎn)/控制節(jié)點(diǎn)做的一些事情。


          中間這一層叫查詢計(jì)算層,計(jì)算層很有意思,這是這一代數(shù)據(jù)庫的特點(diǎn),它的計(jì)算層可以分成多個(gè)小的集群,這是非常好的資源隔離方式,計(jì)算和存儲(chǔ)分離,就等于可以動(dòng)態(tài)地起很多小的集群,不同的用戶可以使用不同的集群,類似于多租戶的概念,這樣就帶來了高并發(fā)等好處。底下存儲(chǔ)層,Snowflake用的是對(duì)象存儲(chǔ),其實(shí)他們?cè)趧?chuàng)業(yè)初期的時(shí)候想嘗試開發(fā)一套自己的存儲(chǔ),但后來失敗了,為什么?因?yàn)榇鎯?chǔ)還是很復(fù)雜的,想開發(fā)一套好的存儲(chǔ)需要好幾年,使用了現(xiàn)在的S3,當(dāng)然也踩了很多坑。



          另外一個(gè)例子是現(xiàn)在我們?cè)谧龅腛ushuDB。


          OushuDB是一個(gè)云原生的數(shù)據(jù)倉庫,是這種存儲(chǔ)與計(jì)算分離、松散耦合的架構(gòu)。大家可以看到架構(gòu)方面跟Snowflake有一點(diǎn)點(diǎn)相像,左上邊這一塊藍(lán)色的部分是主節(jié)點(diǎn)做的事情,多個(gè)主節(jié)點(diǎn)可以管理著獨(dú)立的元數(shù)據(jù),管理資源,做查詢的解析、查詢的優(yōu)化等等;右上邊那一塊是計(jì)算,我們叫虛擬計(jì)算集群,用戶可以動(dòng)態(tài)起一些虛擬計(jì)算集群。在云的支持方面,我們不僅支持公有云,也支持私有云,還支持物理機(jī)的部署。


          在存儲(chǔ)支持方面,OushuDB支持多種存儲(chǔ),包括對(duì)象存儲(chǔ)、HDFS等。在公有云上我們推薦用對(duì)象存儲(chǔ),比較簡(jiǎn)單,不需要獨(dú)立存儲(chǔ)的部署;在物理集群上,我們建議部署HDFS。隨著各種各樣的混合工作負(fù)載越來越多,我們研發(fā)了Magma分布式表存儲(chǔ),我們這種新的存儲(chǔ)支持混合工作負(fù)載,支持高并發(fā)、小查詢、帶索引等等,這些工作負(fù)載在對(duì)象存儲(chǔ)上比較難實(shí)現(xiàn),支持可插拔存儲(chǔ)是我們相對(duì)Snowflake更好的地方。



          另外一部分是我們極速的數(shù)據(jù)分析能力,大家知道Greenplum性能包括HAWQ性能是很好的,而現(xiàn)在OushuDB的版本里,新一代的執(zhí)行器性能無論是單表性能還是非常復(fù)雜的查詢,已經(jīng)可以比Greenplum快5-10倍,這非常難,但我們做到了。而且完全兼容SQL的標(biāo)準(zhǔn),如果以前你用了Teradata、Oracle、DB2、Greenplum或者其它數(shù)據(jù)倉庫,應(yīng)用可以非常容易地遷移到我們新一代的數(shù)據(jù)庫里。


          這是幾大類產(chǎn)品簡(jiǎn)單的對(duì)比,比較客觀,左邊兩個(gè)是新一代的架構(gòu),其他的是一些傳統(tǒng)的共享存儲(chǔ)架構(gòu)系統(tǒng),類似于Oracle這種數(shù)據(jù)庫、數(shù)倉的一些系統(tǒng)。第二種是傳統(tǒng)MPP,類似于Greenplum,Vertica等系統(tǒng),第三種是Hadoop相關(guān)的一些系統(tǒng)。


          從數(shù)據(jù)共享角度來看,比如新一代的云原生架構(gòu)可以共享同一份數(shù)據(jù),不需要因?yàn)榧旱囊?guī)模導(dǎo)致要分割很多種小的存儲(chǔ)集群,相當(dāng)于用一個(gè)大的存儲(chǔ)集群就搞定了。存儲(chǔ)是統(tǒng)一的,只需要存一份數(shù)據(jù),不會(huì)形成數(shù)據(jù)孤島。


          在事務(wù)方面完全支持事務(wù)的ACID,所有的特性包括索引等等都可以支持。數(shù)據(jù)治理方面其實(shí)比較簡(jiǎn)單,性能、可擴(kuò)展性、SQL標(biāo)準(zhǔn)支持、支持?jǐn)?shù)據(jù)類型,包括結(jié)構(gòu)化、半結(jié)構(gòu)化。存儲(chǔ)引擎的選擇,有的云原生數(shù)據(jù)庫可以支持多種,有的云原生數(shù)據(jù)庫只能支持一種,其它的基本上都是綁死的,比如Oracle不能選別的,Greenplum只能選私有的存儲(chǔ),Hadoop基本上是HDFS。使用難度來看,新一代云原生架構(gòu)繼承了傳統(tǒng)數(shù)據(jù)庫Oracle,MPP數(shù)據(jù)庫等的特征,完全兼容SQL包括存儲(chǔ)過程、自定義函數(shù)等等,運(yùn)維和實(shí)施難度較簡(jiǎn)單。



          三、數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)


          前面主要說了從架構(gòu)角度來看云原生數(shù)據(jù)倉庫或者云原生數(shù)據(jù)庫跟傳統(tǒng)數(shù)據(jù)庫的一些區(qū)別,真正做一個(gè)數(shù)據(jù)分析的應(yīng)用場(chǎng)景,并不單純是一個(gè)數(shù)據(jù)庫,它是很多系統(tǒng)組合的結(jié)果,需要一個(gè)好的數(shù)據(jù)架構(gòu)。我們從這個(gè)角度來看數(shù)據(jù)架構(gòu)演進(jìn)的路線。


          這是最傳統(tǒng)的數(shù)據(jù)架構(gòu),在2000年之前比較流行,大家都叫傳統(tǒng)數(shù)據(jù)倉庫平臺(tái)架構(gòu),這個(gè)架構(gòu)非常簡(jiǎn)單,有數(shù)據(jù)源,進(jìn)行ETL,到傳統(tǒng)的數(shù)據(jù)倉庫,上面有多個(gè)數(shù)據(jù)集市,再上面有報(bào)表等應(yīng)用,這是最傳統(tǒng)、最經(jīng)典的數(shù)據(jù)倉庫的架構(gòu)。



          后面等Hadoop出來后,大家開始構(gòu)建數(shù)據(jù)湖,很多人對(duì)數(shù)據(jù)湖這個(gè)概念的理解不是很一樣,那數(shù)據(jù)湖到底是什么?數(shù)據(jù)湖解決了什么問題?以前傳統(tǒng)數(shù)倉的模式,數(shù)據(jù)從數(shù)據(jù)源、從ETL加載過來,到數(shù)據(jù)倉庫,再到數(shù)據(jù)集市,再到應(yīng)用。數(shù)據(jù)倉庫有著非常好、非常嚴(yán)格的建模方式,比如在金融里有FSDM,還有維度建模等各種各樣建模的方法,使得很多數(shù)據(jù)大家用起來不爽——為什么做一件事情我不能拿到所有的數(shù)據(jù),拿到數(shù)據(jù)還要經(jīng)過這么長(zhǎng)時(shí)間才能用,用起來也不是那么靈活,開發(fā)一個(gè)創(chuàng)新場(chǎng)景比較慢。


          引入數(shù)據(jù)湖的概念,就是把所有的數(shù)據(jù),無論結(jié)構(gòu)化、非結(jié)構(gòu)化,都扔進(jìn)來,沒有經(jīng)過嚴(yán)格的數(shù)據(jù)建模等等過程,原始數(shù)據(jù)放在這兒,大家可以去用,用完之后如果形成了一些好的模型,可以轉(zhuǎn)到數(shù)據(jù)倉庫里。數(shù)據(jù)湖出現(xiàn)之后,大家形成的架構(gòu)上基本上是這樣一種架構(gòu):有數(shù)據(jù)湖,有數(shù)據(jù)倉庫,上面還有數(shù)據(jù)集市,現(xiàn)在大部分的架構(gòu)都是這樣,當(dāng)然包含一些流處理等,流數(shù)據(jù)由不同的組件實(shí)現(xiàn)。



          在新一代云原生的架構(gòu)底下,數(shù)據(jù)架構(gòu)變得簡(jiǎn)單了。底下的對(duì)象存儲(chǔ)或是其他存儲(chǔ)是共享的,數(shù)據(jù)進(jìn)來之后可以不加整理直接放到存儲(chǔ)中(數(shù)據(jù)湖中),想做處理的時(shí)候,可以直接使用,經(jīng)過加工之后形成倉庫里建模好的數(shù)據(jù),再到集市,整個(gè)的加工處理都在一套平臺(tái)里,不同的計(jì)算場(chǎng)景可以使用不同的計(jì)算集群。這種架構(gòu)我們稱之為最新的數(shù)據(jù)云平臺(tái)架構(gòu)。“湖倉一體”基本上也是這個(gè)概念,湖和倉可以統(tǒng)一在一套系統(tǒng)中,可以做數(shù)據(jù)加工、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)治理、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、建模等等,可以非常好地解決傳統(tǒng)的需要多個(gè)集群、多個(gè)系統(tǒng)之間做數(shù)據(jù)倒騰等各種復(fù)雜的事情。



          更具體一點(diǎn),這個(gè)架構(gòu)里其實(shí)有非常多的組件,在公有云上可以用對(duì)象存儲(chǔ),在物理機(jī)上部署的話,還可以使用HDFS。數(shù)據(jù)可以分為不同的區(qū)域,計(jì)算可以使用多個(gè)集群,比如在做ETL的時(shí)候用一個(gè)集群,那邊要做即席查詢,可以使用另外一個(gè)計(jì)算集群,不同的計(jì)算集群做不同的事情,但是數(shù)據(jù)是共享的,實(shí)現(xiàn)了一個(gè)完美的架構(gòu)。



          四、云原生數(shù)據(jù)倉庫的應(yīng)用


          最后,我們?cè)賮碇v一個(gè)云原生數(shù)據(jù)倉庫在國有銀行的一個(gè)應(yīng)用案例。國內(nèi)的大行資產(chǎn)規(guī)模在世界上非常領(lǐng)先,因此數(shù)據(jù)量非常巨大,有幾十個(gè)PB。傳統(tǒng)的MPP數(shù)據(jù)倉庫和Hadoop都很難解決高并發(fā),數(shù)據(jù)孤島等問題。另外,銀行的要求非常高,包括穩(wěn)定性、功能支持的完備性等等,因此跟互聯(lián)網(wǎng)公司有一些區(qū)別,在互聯(lián)網(wǎng)公司能湊合用人肉運(yùn)維使用的系統(tǒng)在銀行一般很難用得起來。現(xiàn)在行里大約有好幾十個(gè)數(shù)據(jù)倉庫集群,云原生架構(gòu)可以很好地解決數(shù)據(jù)孤島等問題,現(xiàn)在我們正在慢慢地將它遷移到新一代云原生架構(gòu)里


          講師簡(jiǎn)介


          常雷

          偶數(shù)科技創(chuàng)始人、CEO,騰訊云TVP

          偶數(shù)科技創(chuàng)始人、CEO,騰訊云TVP,Apache HAWQ數(shù)據(jù)庫頂級(jí)項(xiàng)目創(chuàng)始人,曾任EMC高級(jí)研究員、EMC/Pivotal研發(fā)部總監(jiān),長(zhǎng)期專注于AI和大數(shù)據(jù)領(lǐng)域,曾在國內(nèi)外頂級(jí)數(shù)據(jù)管理期刊和會(huì)議(如SIGMOD等)發(fā)表數(shù)篇論文,擁有多項(xiàng)國際專利。常雷博士是中國計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫專委,中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟專家和中國人工智能百人專家。2017年入選美國著名商業(yè)雜志《快公司》“中國商業(yè)最具創(chuàng)意人物100”榜單。他于2008年博士畢業(yè)于北京大學(xué)計(jì)算機(jī)系。


          點(diǎn)擊觀看峰會(huì)的精彩總結(jié)視頻??


          關(guān)注云加社區(qū),回復(fù)關(guān)鍵詞:“數(shù)據(jù)”,可獲取峰會(huì)當(dāng)天全程回顧視頻鏈接

          6月5日,Techo TVP 開發(fā)者峰會(huì) ServerlessDays China 2021,即將重磅來襲!

          掃碼立即參會(huì)贏好禮??


          瀏覽 44
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷综合在线 | a在线级电影网站 | 精品国产卡一卡二 | 亚洲A级黄片 | 亚洲骚逼 |