<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          主流云數(shù)倉性能對(duì)比分析

          共 3852字,需瀏覽 8分鐘

           ·

          2020-11-15 03:23


          最近隨著Snowflake上市后市值的暴增(目前700億美金左右),整個(gè)市場(chǎng)對(duì)原生云數(shù)倉都關(guān)注起來。近日,一家第三方叫GigaOM的公司對(duì)主流的幾個(gè)云數(shù)倉進(jìn)行了性能的對(duì)比,包括Actian Avalanche、Amazon Redshift、Microsoft Azure Synapse、Google BigQuery、Snowflake,基本涵蓋了目前市場(chǎng)上主流的云數(shù)倉服務(wù)。

          大家知道,傳統(tǒng)數(shù)倉版本的更新都是以年來計(jì),很多客戶的數(shù)倉平臺(tái)都還是使用5年,甚至10年前的技術(shù)。而現(xiàn)今,公有云給這個(gè)行業(yè)帶來巨大的變化,云原生的數(shù)倉層出不窮,技術(shù)迭代更新非常快,比如AWS宣稱其Redshfit在過去18個(gè)月有200多項(xiàng)更新,每周全網(wǎng)同步更新2-3個(gè)功能與特性,讓客戶一直運(yùn)行在最新版本,能隨時(shí)使用到最新的技術(shù)。

          GIGAOM在去年(2019)4月份發(fā)布過一份類似的云原生數(shù)倉性能測(cè)試報(bào)告,當(dāng)時(shí)選取的主要是Amazon Redshift,Microsoft Azure SQL Data Warehouse,Google BigQuery和Snowflake,沒有Actian。

          今年的這份報(bào)告發(fā)布于2020年10月13日,應(yīng)該是目前市場(chǎng)上最新的對(duì)云數(shù)倉的性能對(duì)比了。GIGAOM將測(cè)試報(bào)告發(fā)布在其官網(wǎng):https://gigaom.com/report/high-performance-cloud-data-warehouse-performance-testing/
          “大部分歷史是猜的,剩下的都是偏見”

          ——威爾·杜蘭特(哲學(xué)家、歷史學(xué)家)

          這句話同樣適用于各種Performance Benchmark對(duì)比,任何POC(Proof of Concept,搞技術(shù)的人都懂的)都是帶有偏見的,主要看誰是Sponsor。GigaOM不是慈善機(jī)構(gòu),測(cè)試肯定需要費(fèi)用,開這么多云數(shù)倉服務(wù),每個(gè)跑一遍測(cè)試場(chǎng)景,費(fèi)用應(yīng)該不低,所以必須有金主支持。公司在這點(diǎn)上還比較公開透明,首先聲明本次測(cè)試的Sponsor是Actian,所以我們可以認(rèn)為Actian應(yīng)該是深度參與了測(cè)試,大概率是進(jìn)行了場(chǎng)景的選擇和調(diào)優(yōu)等相關(guān)工作。GigaOM幫助選擇了測(cè)試的對(duì)手,也就是AWS、Azure、GCP和Snowflake。(備注:2019年4月測(cè)試的Sponsor是Microsoft)

          下面我就這份測(cè)試報(bào)告來窺視分析一下各個(gè)云數(shù)倉的技術(shù)特點(diǎn),個(gè)人觀點(diǎn),僅供參考。


          平臺(tái)簡(jiǎn)介


          Actian Avalanche:2019年才剛剛開始向市場(chǎng)提供云數(shù)倉的服務(wù),基于Vector(2010年發(fā)布的一款本地部署的MPP數(shù)據(jù)庫),主要應(yīng)用在數(shù)據(jù)分析、數(shù)倉平臺(tái)。技術(shù)上也是列壓縮存儲(chǔ),緩存執(zhí)行模型,向量技術(shù)處理數(shù)據(jù),SQL標(biāo)準(zhǔn)遵循ANSI-2011 SQL,全托管云服務(wù),用戶可選擇部署在AWS、Azure和GCP上,當(dāng)然它也支持本地部署。

          Amazon Redshift:是市場(chǎng)上第一個(gè)原生云數(shù)倉服務(wù),MPP、列存、按列壓縮、無索引、動(dòng)態(tài)擴(kuò)展,SQL語法兼容PostgreSQL,支持存儲(chǔ)與計(jì)算分離,按小時(shí)計(jì)費(fèi),也可以通過暫停來停止計(jì)費(fèi)。

          Azure Synapse Analytics:之前叫SQL DW,今年改名為Synapse。存儲(chǔ)計(jì)算分離,列存、按小時(shí)計(jì)費(fèi)、可通過暫停與恢復(fù)來節(jié)省成本,SQL兼容SQL Server(可能底層就是SQL Server)。

          Google BigQuery:源于Google的Dremel技術(shù),無索引、Serverless技術(shù)、動(dòng)態(tài)調(diào)整計(jì)算與存儲(chǔ)資源,存儲(chǔ)按非壓縮數(shù)據(jù)量來計(jì)費(fèi),計(jì)算按照查詢使用的slot來計(jì)費(fèi)。

          Snowflake:全托管云數(shù)倉服務(wù),可運(yùn)行在AWS、Azure、GCP之上(用戶在創(chuàng)建服務(wù)的時(shí)進(jìn)行選擇),計(jì)算存儲(chǔ)分離架構(gòu),計(jì)算按需成倍擴(kuò)展(1、2、4、8、16……)和計(jì)費(fèi),存儲(chǔ)按需計(jì)費(fèi)。

          表格是本次測(cè)試的各數(shù)倉版本,應(yīng)該都是基于2020年9月左右的最新版本了。


          測(cè)試場(chǎng)景與數(shù)據(jù)規(guī)模


          本次測(cè)試場(chǎng)景選取的是30TB的TPC-H,比較有趣的是在2019年的benchmark中GigaOM選取的是30TB的TPC-DS。要知道,TPC-DS有99個(gè)SQL,而TPC-H只有22個(gè),而且TPC-DS的模型要比TPC-H復(fù)雜,那為啥本次不選擇更加通用的TPC-DS呢?

          對(duì)比兩次測(cè)試的云數(shù)倉產(chǎn)品,Actian是今年新加入的(其它都是老面孔),而且它是Sponsor,大概率Actian對(duì)TPC-H支撐得更好(或者說,Actian可能不能完全支持TPC-DS),以上只是個(gè)人的猜測(cè)。

          畢竟,就如上面提到的,任何POC都是帶有“偏見”的。下面看看具體的測(cè)試數(shù)據(jù):

          Table記錄數(shù)與data model:


          TPC-H的22個(gè)SQL類型:

          ?

          測(cè)試環(huán)境


          下表是各數(shù)倉的測(cè)試環(huán)境,基本都是各云廠商提供的最新配置,按照相似計(jì)算能力進(jìn)行的選擇。


          測(cè)試結(jié)果


          Actian基本在所有的場(chǎng)景性能都表現(xiàn)最優(yōu),而且性價(jià)比最好,具體可詳見GigaOM的報(bào)告。但就如前面所說的,它是Sponsor,并且參與了測(cè)試過程和報(bào)告的編寫,這種結(jié)果也可以預(yù)期的。

          但這并不是本文要分析的重點(diǎn),其實(shí),其它4家的產(chǎn)品,Snowflake / Redshift / Synapse / BigQuery,才是市場(chǎng)上最常見和使用最廣泛的云數(shù)倉產(chǎn)品。所以我決定將Actian從測(cè)試結(jié)果中去掉,比較一下這4家的性能數(shù)據(jù)。結(jié)果如下:

          場(chǎng)景一:單用戶執(zhí)行

          累計(jì)執(zhí)行時(shí)長(zhǎng)(22條SQL):可以看到Redshift和Synapse要遠(yuǎn)好于Snowflake和BigQuery,其中Redshfit的總體執(zhí)行時(shí)長(zhǎng)最短,大概只有Snowflake的1/2和BigQuery的1/5。


          最佳性能SQL的數(shù)量:橫向比較22個(gè)場(chǎng)景,挑選出每個(gè)場(chǎng)景的最佳(執(zhí)行時(shí)長(zhǎng)最短)。Redshift有13條SQL執(zhí)行時(shí)間最短,Synapse有8條,Snowflake只有1條,而BigQuery沒有。


          場(chǎng)景二:5并發(fā)用戶執(zhí)行

          累計(jì)執(zhí)行時(shí)長(zhǎng)(22條SQL):還是Redshift表現(xiàn)最好,Synapse也不錯(cuò)。相對(duì)于單用戶環(huán)境下,Snowflake和BigQuery似乎表現(xiàn)更差了,只有Redshift的1/6左右,說明它們?cè)谫Y源的并發(fā)控制這塊還不太好,特別是Snowflake。


          最佳性能SQL的數(shù)量:同樣,還是Redshift在最多場(chǎng)景性能表現(xiàn)最好,Synapse是第二,但差距已經(jīng)不大了。而Snowflake和BigQuery在22個(gè)場(chǎng)景中沒有執(zhí)行時(shí)長(zhǎng)最短的。


          場(chǎng)景三:性價(jià)比

          性價(jià)比的計(jì)算采用下面公式,執(zhí)行時(shí)長(zhǎng)是累計(jì)時(shí)長(zhǎng),而價(jià)格取自各廠商的官網(wǎng)列表價(jià)。


          單用戶性價(jià)比:Redshift最便宜,其次是Synapse,然后是Snowflake和BigQuery,其中BigQuery要比其它3家高不少。


          并發(fā)用戶性價(jià)比:Synapse最便宜,其次是Redshift,然后是Snowflake和BigQuery。


          測(cè)試結(jié)論匯總與局限性


          • 在性能方面,無論是單進(jìn)程還是并發(fā)方式,Redshift都是表現(xiàn)最好的,Synapse其次。

          • 在并發(fā)性能方面,Snowflake和BigQuery似乎沒有Redshift和Synapse控制得好。

          • 性價(jià)比方面,Redshift和Synapse差不多,BigQuery最貴。

          • 本次測(cè)試主要只是性能對(duì)比,不涉及功能、安全性、擴(kuò)展性、高可用、備份、生態(tài)等等其它方面,有一定局限性。

          • Snowflake和BigQuery在市場(chǎng)上的宣傳一直都是強(qiáng)調(diào)其易用性和易管理性(無需DBA),這方面在本次測(cè)試中沒有涉及。

          • 本次測(cè)試采用的TPC-H模型可能是為了遷就Actian而選擇,相對(duì)簡(jiǎn)單,無法完全反映真實(shí)環(huán)境中的各種復(fù)雜負(fù)載和ad-hoc查詢,另外5并發(fā)也相對(duì)較低。


          云數(shù)倉的未來展望(個(gè)人觀點(diǎn),僅供參考)


          • 當(dāng)今各云數(shù)倉版本迭代都很快,功能上Snowflake、Redshift、Synapse、BigQuery都已經(jīng)很接近,而且大家都在互相學(xué)習(xí),比如存儲(chǔ)計(jì)算分離、按需彈性擴(kuò)展、數(shù)據(jù)共享與交換、對(duì)象存儲(chǔ)集成等等, 90%的功能大家都雷同,只是在技術(shù)細(xì)節(jié)的實(shí)現(xiàn)上各有不同。

          • Snowflake與其它3家不大相同,它為獨(dú)立的第三方,有跨云部署的優(yōu)勢(shì)。但它底層還需要依賴第三方云廠商的基礎(chǔ)架構(gòu),比如AWS、GCP、Azure,隨著這些廠商自身云數(shù)倉服務(wù)的發(fā)展,這種合作關(guān)系可能未來可能會(huì)變得越來越微妙。

          • 易用性和易管理性是未來各云數(shù)倉的發(fā)展重點(diǎn),Snowflake開了個(gè)好頭,其它各廠商都緊密跟進(jìn),今后可能真的沒有DBA這個(gè)職業(yè)了。

          • 未來云數(shù)倉或云數(shù)據(jù)庫,更多的優(yōu)化可能會(huì)與底層專有硬件或網(wǎng)絡(luò)相結(jié)合,比如CPU、GPU、FPGA、專有協(xié)議等等,這些是云廠商自研產(chǎn)品的優(yōu)勢(shì),而像Snowflake、Actian、ClickHouse等第三方平臺(tái)是無法做到的。所以,易用性、通用性和性能本身就是一對(duì)矛盾的共同體,客戶可以按照自己的實(shí)際需求來權(quán)衡、選擇。


          源:肉眼品世界

          版權(quán)申明:內(nèi)容來源網(wǎng)絡(luò),版權(quán)歸原創(chuàng)者所有。除非無法確認(rèn),我們都會(huì)標(biāo)明作者及出處,如有侵權(quán)煩請(qǐng)告知,我們會(huì)立即刪除并表示歉意。謝謝!





          感謝閱讀



          瀏覽 29
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久婷婷六月综合综 | 成人三级片在线观看 | 台湾中文无码 | 成人午夜精品无码区 | 久久夜色国产精品噜噜AVAV |