国产精品美女久久久,欧美一级在线免费,日韩AV乱伦,国产精品主播一区二区,亚洲欧美精品性爱,国产刺激对白久久久,欧美有码视频,黑人巨吊碰碰

導(dǎo)讀：隨著近幾年數(shù)據(jù)湖概念的興起，業(yè)界對于數(shù)據(jù)倉庫和數(shù)據(jù)湖的對比甚至爭論就一直不斷。有人說數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺，各大云廠商也在紛紛的提出自己的數(shù)據(jù)湖解決方案，一些云數(shù)倉產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動的特性。

但是數(shù)據(jù)倉庫和數(shù)據(jù)湖的區(qū)別到底是什么，是技術(shù)路線之爭？是數(shù)據(jù)管理方式之爭？二者是水火不容還是其實可以和諧共存，甚至互為補充？

本文作者來自阿里巴巴計算平臺部門，深度參與阿里巴巴大數(shù)據(jù)/數(shù)據(jù)中臺領(lǐng)域建設(shè)，將從歷史的角度對數(shù)據(jù)湖和數(shù)據(jù)倉庫的來龍去脈進行深入剖析，來闡述兩者融合演進的新方向——湖倉一體，并就基于阿里云MaxCompute/EMR DataLake的湖倉一體方案做一介紹。

作者：關(guān)濤、李睿博、孫莉莉、張良模、賈揚清（from 阿里云智能計算平臺）

黃波、金玉梅、于茜、劉子正（from 新浪微博機器學習研發(fā)部）

01 大數(shù)據(jù)領(lǐng)域發(fā)展20年的變與不變

1. 概述

大數(shù)據(jù)領(lǐng)域從本世紀初發(fā)展到現(xiàn)在，已經(jīng)歷20年。從宏觀層面觀察其中的發(fā)展規(guī)律，可以高度概括成如下五個方面：

數(shù)據(jù)保持高速增長- 從5V核心要素看，大數(shù)據(jù)領(lǐng)域保持高速增長。阿里巴巴經(jīng)濟體，作為一個重度使用并著力發(fā)展大數(shù)據(jù)領(lǐng)域的公司，過去5年數(shù)據(jù)規(guī)模保持高速增長（年化60%-80%），增速在可見的未來繼續(xù)保持。對于新興企業(yè)，大數(shù)據(jù)領(lǐng)域增長超過年200%。
大數(shù)據(jù)作為新的生產(chǎn)要素，得到廣泛認可- 大數(shù)據(jù)領(lǐng)域價值定位的遷移，從“探索”到“普惠”，成為各個企業(yè)/政府的核心部門，并承擔關(guān)鍵任務(wù)。還是以阿里巴巴為例，30%的員工直接提交大數(shù)據(jù)作業(yè)。隨大數(shù)據(jù)普惠進入生產(chǎn)環(huán)境，可靠性、安全性、管控能力、易用性等企業(yè)級產(chǎn)品力增強。
數(shù)據(jù)管理能力成為新的關(guān)注點- 數(shù)倉（中臺）能力流行起來，如何用好數(shù)據(jù)成為企業(yè)的核心競爭力。
引擎技術(shù)進入收斂期?- 隨著Spark（通用計算）、Flink（流計算）、Hbase（KV）、Presto（交互分析）、ElasticSearch（搜索）、Kafka（數(shù)據(jù)總線）自從2010-2015年逐步占領(lǐng)開源生態(tài)，最近5年新引擎開源越來越少，但各引擎技術(shù)開始向縱深發(fā)展（更好的性能、生產(chǎn)級別的穩(wěn)定性等）。
平臺技術(shù)演進出兩個趨勢，數(shù)據(jù)湖?VS 數(shù)據(jù)倉庫- 兩者均關(guān)注數(shù)據(jù)存儲和管理（平臺技術(shù)），但方向不同。

▲圖1 阿里巴巴雙十一單日處理數(shù)據(jù)量增長

2. 從大數(shù)據(jù)技術(shù)發(fā)展看湖和倉

首先，數(shù)據(jù)倉庫的概念出現(xiàn)的要比數(shù)據(jù)湖早的多，可以追溯到數(shù)據(jù)庫為王的上世紀 90 年代。因此，我們有必要從歷史的脈絡(luò)來梳理這些名詞出現(xiàn)的大概時間、來由以及更重要的背后原因。大體上，計算機科學領(lǐng)域的數(shù)據(jù)處理技術(shù)的發(fā)展，主要分為四個階段：

階段一：數(shù)據(jù)庫時代

數(shù)據(jù)庫最早誕生于 20 世紀的 60 年代，今天人們所熟知的關(guān)系型數(shù)據(jù)庫則出現(xiàn)在 20 世紀 70 年代，并在后續(xù)的 30 年左右時間里大放異彩，誕生了很多優(yōu)秀的關(guān)系型數(shù)據(jù)庫，如 Oracle、SQL Server、MySQL、PostgresSQL 等，成為當時主流計算機系統(tǒng)不可或缺的組成部分。

到 20 世紀 90 年代，數(shù)據(jù)倉庫的概念誕生。此時的數(shù)據(jù)倉庫概念更多表達的是如何管理企業(yè)中多個數(shù)據(jù)庫實例的方法論，但受限于單機數(shù)據(jù)庫的處理能力以及多機數(shù)據(jù)庫（分庫分表）長期以來的高昂價格，此時的數(shù)據(jù)倉庫距離普通企業(yè)和用戶都還很遙遠。人們甚至還在爭論數(shù)據(jù)倉庫（統(tǒng)一集中管理）和數(shù)據(jù)集市（按部門、領(lǐng)域的集中管理）哪個更具可行性。

階段二：大數(shù)據(jù)技術(shù)的「探索期」

時間進入到 2000 年附近，隨著互聯(lián)網(wǎng)的爆發(fā)，動輒幾十億、上百億的頁面以及海量的用戶點擊行為，開啟了全球的數(shù)據(jù)量急劇增加的新時代。傳統(tǒng)的數(shù)據(jù)庫方案再也無力以可接受的成本提供計算力，巨大的數(shù)據(jù)處理需求開始尋找突破口，大數(shù)據(jù)時代開始萌芽。

2003、2004、2006 年 Google 先后 3 篇經(jīng)典論文（GFS、MapReduce、BigTable）奠基了這個大數(shù)據(jù)時代的基本技術(shù)框架，即分布式存儲、分布式調(diào)度以及分布式計算模型。

隨后，幾乎是在同一時期，誕生了包括 Google，微軟 Cosmos 以及開源 Hadoop 為代表的優(yōu)秀分布式技術(shù)體系，當然，這其中也包括阿里巴巴的飛天系統(tǒng)。此時人們興奮于追求數(shù)據(jù)的處理規(guī)模，即『大』數(shù)據(jù)，沒有閑暇爭論是數(shù)據(jù)倉庫還是數(shù)據(jù)湖。

階段三：大數(shù)據(jù)技術(shù)的「發(fā)展期」

來到 21 世紀的第二個 10 年，隨著越來越多的資源投入到大數(shù)據(jù)計算領(lǐng)域，大數(shù)據(jù)技術(shù)進入一個蓬勃發(fā)展的階段，整體開始從能用轉(zhuǎn)向好用。

代替昂貴的手寫 MapReduce 作業(yè)的，則是如雨后春筍般出現(xiàn)的各種以 SQL 為表達的計算引擎。這些計算引擎針對不同的場景進行針對性優(yōu)化，但都采用門檻極低的 SQL 語言，極大降低了大數(shù)據(jù)技術(shù)的使用成本，數(shù)據(jù)庫時代人們夢想的大一統(tǒng)的數(shù)據(jù)倉庫終于成為現(xiàn)實，各種數(shù)據(jù)庫時代的方法論開始抬頭。

這個時期技術(shù)路線開始出現(xiàn)細分。云廠商主推的如 AWS Redshift、Google BigQuery、Snowflake，包括 MaxCompute 這樣的集成系統(tǒng)稱為大數(shù)據(jù)時代的數(shù)據(jù)倉庫。而以開源 Hadoop 體系為代表的的開放式 HDFS 存儲、開放的文件格式、開放的元數(shù)據(jù)服務(wù)以及多種引擎（Hive、Presto、Spark、Flink 等）協(xié)同工作的模式，則形成了數(shù)據(jù)湖的雛形。

階段四：大數(shù)據(jù)技術(shù)「普及期」

當前，大數(shù)據(jù)技術(shù)早已不是什么火箭科技，而已經(jīng)滲透到各行各業(yè)，大數(shù)據(jù)的普及期已經(jīng)到來。市場對大數(shù)據(jù)產(chǎn)品的要求，除了規(guī)模、性能、簡單易用，提出了成本、安全、穩(wěn)定性等更加全面的企業(yè)級生產(chǎn)的要求。

開源 Hadoop 線，引擎、元數(shù)據(jù)、存儲等基礎(chǔ)部件的迭代更替進入相對穩(wěn)態(tài)，大眾對開源大數(shù)據(jù)技術(shù)的認知達到空前的水平。一方面，開放架構(gòu)的便利帶來了不錯的市場份額，另一方面開放架構(gòu)的松散則使開源方案在企業(yè)級能力構(gòu)建上遇到瓶頸，尤其是數(shù)據(jù)安全、身份權(quán)限強管控、數(shù)據(jù)治理等方面，協(xié)同效率較差（如 Ranger 作為權(quán)限管控組件、Atlas 作為數(shù)據(jù)治理組件，跟今天的主流引擎竟然還無法做到全覆蓋）。同時引擎自身的發(fā)展也對已有的開放架構(gòu)提出了更多挑戰(zhàn)，Delta Lake、Hudi 這樣自閉環(huán)設(shè)計的出現(xiàn)使得一套存儲、一套元數(shù)據(jù)、多種引擎協(xié)作的基礎(chǔ)出現(xiàn)了某種程度的裂痕。
真正將數(shù)據(jù)湖概念推而廣之的是AWS。AWS 構(gòu)筑了一套以 S3 為中心化存儲、Glue 為元數(shù)據(jù)服務(wù)，E-MapReduce、Athena 為引擎的開放協(xié)作式的產(chǎn)品解決方案。它的開放性和和開源體系類似，并在2019年推出Lake Formation 解決產(chǎn)品間的安全授信問題。雖然這套架構(gòu)在企業(yè)級能力上和相對成熟的云數(shù)據(jù)倉庫產(chǎn)品相去甚遠，但對于開源技術(shù)體系的用戶來說，架構(gòu)相近理解容易，還是很有吸引力。AWS 之后，各個云廠商也紛紛跟進數(shù)據(jù)湖的概念，并在自己的云服務(wù)上提供類似的產(chǎn)品解決方案。
云廠商主推的數(shù)據(jù)倉庫類產(chǎn)品則發(fā)展良好，數(shù)倉核心能力方面持續(xù)增強。性能、成本方面極大提升（MaxCompute 完成了核心引擎的全面升級和性能跳躍式發(fā)展，連續(xù)三年刷新 TPCx-BigBench 世界記錄），數(shù)據(jù)管理能力空前增強（數(shù)據(jù)中臺建模理論、智能數(shù)倉），企業(yè)級安全能力大為繁榮（同時支持基于 ACL 和基于規(guī)則等多種授權(quán)模型，列級別細粒度授權(quán)，可信計算，存儲加密，數(shù)據(jù)脫敏等），在聯(lián)邦計算方面也普遍做了增強，一定程度上開始將非數(shù)倉自身存儲的數(shù)據(jù)納入管理，和數(shù)據(jù)湖的邊界日益模糊。

綜上所述，數(shù)據(jù)倉庫是個誕生于數(shù)據(jù)庫時代的概念，在大數(shù)據(jù)時代隨云廠商的各種數(shù)倉服務(wù)落地開花，目前通常指代云廠商提供的基于大數(shù)據(jù)技術(shù)的一體化服務(wù)。而數(shù)據(jù)湖則脫胎于大數(shù)據(jù)時代開源技術(shù)體系的開放設(shè)計，經(jīng)過 AWS 整合宣傳，通常是由一系列云產(chǎn)品或開源組件共同構(gòu)成大數(shù)據(jù)解決方案。

▲圖2 20年大數(shù)據(jù)發(fā)展之路

02 什么是數(shù)據(jù)湖

近幾年數(shù)據(jù)湖的概念非常火熱，但是數(shù)據(jù)湖的定義并不統(tǒng)一，我們先看下數(shù)據(jù)湖的相關(guān)定義。

Wikipedia對數(shù)據(jù)湖的定義：

A data lake is a system or?repository of datastored in its natural/raw format,usually object?blobsor files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as?reporting,?visualization,?advanced analyticsand?machine learning. A data lake can include?structured datafrom?relational databases(rows and columns), semi-structured data (CSV, logs,?XML,?JSON),?unstructured data(emails, documents, PDFs) and?binary data(images,?audio,?video).?A data lake can be established "on premises" (within an organization's data centers) or "in the cloud" (using cloud services from vendors such as Amazon, Google and Microsoft).A data swamp is a deteriorated and unmanaged data lake that is either inaccessible to its intended users or is providing little value.

數(shù)據(jù)湖是指使用大型二進制對象或文件這樣的自然格式儲存數(shù)據(jù)的系統(tǒng)。它通常把所有的企業(yè)數(shù)據(jù)統(tǒng)一存儲，既包括源系統(tǒng)中的原始副本，也包括轉(zhuǎn)換后的數(shù)據(jù)，比如那些用于報表, 可視化, 數(shù)據(jù)分析和機器學習的數(shù)據(jù)。數(shù)據(jù)湖可以包括關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行與列)、半結(jié)構(gòu)化的數(shù)據(jù)(CSV，日志，XML, JSON)，非結(jié)構(gòu)化數(shù)據(jù) (電子郵件、文件、PDF)和二進制數(shù)據(jù)(圖像、音頻、視頻)。儲存數(shù)據(jù)湖的方式包括 Apache Hadoop分布式文件系統(tǒng)， Azure 數(shù)據(jù)湖或亞馬遜云 Lake Formation云存儲服務(wù)，以及諸如 Alluxio 虛擬數(shù)據(jù)湖之類的解決方案。數(shù)據(jù)沼澤是一個劣化的數(shù)據(jù)湖，用戶無法訪問，或是沒什么價值。

AWS的定義相對簡潔：

A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.

數(shù)據(jù)湖是一個集中式存儲庫，允許您以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)（無需先對數(shù)據(jù)進行結(jié)構(gòu)化處理），并運行不同類型的分析 – 從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習，以指導(dǎo)做出更好的決策。

Azure等其他云廠商也有各自的定義，本文不再贅述。

但無論數(shù)據(jù)湖的定義如何不同，數(shù)據(jù)湖的本質(zhì)其實都包含如下四部分：

統(tǒng)一的存儲系統(tǒng)
存儲原始數(shù)據(jù)
豐富的計算模型/范式
數(shù)據(jù)湖與上云無關(guān)

從上述四個標準判斷，開源大數(shù)據(jù)的Hadoop HDFS存儲系統(tǒng)就是一個標準的數(shù)據(jù)湖架構(gòu)，具備統(tǒng)一的原始數(shù)據(jù)存儲架構(gòu)。而近期被廣泛談到的數(shù)據(jù)湖，其實是一個狹義的概念，特指“基于云上托管存儲系統(tǒng)的數(shù)據(jù)湖系統(tǒng)，架構(gòu)上采用存儲計算分離的體系”。例如基于AWS S3系統(tǒng)或者阿里云OSS系統(tǒng)構(gòu)建的數(shù)據(jù)湖。?

下圖是數(shù)據(jù)湖技術(shù)架構(gòu)的演進過程，整體上可分為三個階段：

▲圖3 數(shù)據(jù)湖技術(shù)架構(gòu)演進

階段一：自建開源Hadoop數(shù)據(jù)湖架構(gòu)，原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上，引擎以Hadoop和Spark開源生態(tài)為主，存儲和計算一體。缺點是需要企業(yè)自己運維和管理整套集群，成本高且集群穩(wěn)定性差。

階段二：云上托管Hadoop數(shù)據(jù)湖架構(gòu)（即EMR開源數(shù)據(jù)湖），底層物理服務(wù)器和開源軟件版本由云廠商提供和管理，數(shù)據(jù)仍統(tǒng)一存放在HDFS系統(tǒng)上，引擎以Hadoop和Spark開源生態(tài)為主。

這個架構(gòu)通過云上 IaaS 層提升了機器層面的彈性和穩(wěn)定性，使企業(yè)的整體運維成本有所下降，但企業(yè)仍然需要對HDFS系統(tǒng)以及服務(wù)運行狀態(tài)進行管理和治理，即應(yīng)用層的運維工作。同時因為存儲和計算耦合在一起，穩(wěn)定性不是最優(yōu)，兩種資源無法獨立擴展，使用成本也不是最優(yōu)。

階段三：云上數(shù)據(jù)湖架構(gòu)，即云上純托管的存儲系統(tǒng)逐步取代HDFS，成為數(shù)據(jù)湖的存儲基礎(chǔ)設(shè)施，并且引擎豐富度也不斷擴展。除了Hadoop和Spark的生態(tài)引擎之外，各云廠商還發(fā)展出面向數(shù)據(jù)湖的引擎產(chǎn)品。

如分析類的數(shù)據(jù)湖引擎有AWS Athena和華為DLI，AI類的有AWS Sagemaker。這個架構(gòu)仍然保持了一個存儲和多個引擎的特性，所以統(tǒng)一元數(shù)據(jù)服務(wù)至關(guān)重要，如AWS推出了Glue，阿里云EMR近期也即將發(fā)布數(shù)據(jù)湖統(tǒng)一元數(shù)據(jù)服務(wù)。

該架構(gòu)相對于原生HDFS的數(shù)據(jù)湖架構(gòu)的優(yōu)勢在于：

幫助用戶擺脫原生HDFS系統(tǒng)運維困難的問題。HDFS系統(tǒng)運維有兩個困難：1）存儲系統(tǒng)相比計算引擎更高的穩(wěn)定性要求和更高的運維風險 2）與計算混布在一起，帶來的擴展彈性問題。存儲計算分離架構(gòu)幫助用戶解耦存儲，并交由云廠商統(tǒng)一運維管理，解決了穩(wěn)定性和運維問題。
分離后的存儲系統(tǒng)可以獨立擴展，不再需要與計算耦合，可降低整體成本
當用戶采用數(shù)據(jù)湖架構(gòu)之后，客觀上也幫助客戶完成了存儲統(tǒng)一化（解決多個HDFS數(shù)據(jù)孤島的問題）

下圖是阿里云EMR數(shù)據(jù)湖架構(gòu)圖，它是基于開源生態(tài)的大數(shù)據(jù)平臺，既支持HDFS的開源數(shù)據(jù)湖，也支持OSS的云上數(shù)據(jù)湖。

▲圖4 阿里云EMR數(shù)據(jù)湖架構(gòu)

企業(yè)使用數(shù)據(jù)湖技術(shù)構(gòu)建大數(shù)據(jù)平臺，主要包括數(shù)據(jù)接入、數(shù)據(jù)存儲、計算和分析、數(shù)據(jù)管理、權(quán)限控制等，下圖是Gartner定義的一個參考架構(gòu)。當前數(shù)據(jù)湖的技術(shù)因其架構(gòu)的靈活性和開放性，在性能效率、安全控制以及數(shù)據(jù)治理上并不十分成熟，在面向企業(yè)級生產(chǎn)要求時還存在很大挑戰(zhàn)（在第四章會有詳細的闡述）。

▲圖5 數(shù)據(jù)湖架構(gòu)圖（來自網(wǎng)絡(luò)）

03 數(shù)據(jù)倉庫的誕生，以及和數(shù)據(jù)中臺的關(guān)系

數(shù)據(jù)倉庫的概念最早來源于數(shù)據(jù)庫領(lǐng)域，主要處理面向數(shù)據(jù)的復(fù)雜查詢和分析場景。隨大數(shù)據(jù)技術(shù)發(fā)展，大量借鑒數(shù)據(jù)庫的技術(shù)，例如SQL語言、查詢優(yōu)化器等，形成了大數(shù)據(jù)的數(shù)據(jù)倉庫，因其強大的分析能力，成為主流。

近幾年，數(shù)據(jù)倉庫和云原生技術(shù)相結(jié)合，又演生出了云數(shù)據(jù)倉庫，解決了企業(yè)部署數(shù)據(jù)倉庫的資源供給問題。云數(shù)據(jù)倉庫作為大數(shù)據(jù)的高階（企業(yè)級）平臺能力，因其開箱即用、無限擴展、簡易運維等能力，越來越受到人們的矚目。

Wikipedia對數(shù)據(jù)倉庫的定義：

In?computing, a data warehouse (DW or DWH), also known as an enterprise data warehouse (EDW), is a system used for?reportingand?data analysis, and is considered a core component of?business intelligence.DWs are central repositories of integrated data from one or more disparate sources.?Extract, transform, load(ETL) and?extract, load, transform(E-LT) are the two main approaches used to build a data warehouse system.

在計算機領(lǐng)域，數(shù)據(jù)倉庫（英語：data warehouse，也稱為企業(yè)數(shù)據(jù)倉庫）是用于報告和數(shù)據(jù)分析的系統(tǒng)，被認為是商業(yè)智能的核心組件。數(shù)據(jù)倉庫是來自一個或多個不同源的集成數(shù)據(jù)的中央存儲庫。數(shù)據(jù)倉庫將當前和歷史數(shù)據(jù)存儲在一起，用于為整個企業(yè)的員工創(chuàng)建分析報告。比較學術(shù)的解釋是，數(shù)據(jù)倉庫由數(shù)據(jù)倉庫之父W.H.Inmon于1990年提出，主要功能乃是將組織透過信息系統(tǒng)之在線交易處理(OLTP)經(jīng)年累月所累積的大量數(shù)據(jù)，透過數(shù)據(jù)倉庫理論所特有的數(shù)據(jù)存儲架構(gòu)，作一有系統(tǒng)的分析整理，以利各種分析方法如在線分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)之進行，并進而支持如決策支持系統(tǒng)(DSS)、主管信息系統(tǒng)(EIS)之創(chuàng)建，幫助決策者能快速有效的自大量數(shù)據(jù)中，分析出有價值的信息，以利決策擬定及快速回應(yīng)外在環(huán)境變動，幫助建構(gòu)商業(yè)智能(BI)。

數(shù)據(jù)倉庫的本質(zhì)包含如下三部分：

內(nèi)置的存儲系統(tǒng)，數(shù)據(jù)通過抽象的方式提供（例如采用Table或者View），不暴露文件系統(tǒng)。
數(shù)據(jù)需要清洗和轉(zhuǎn)化，通常采用ETL/ELT方式
強調(diào)建模和數(shù)據(jù)管理，供商業(yè)智能決策

從上述的標準判斷，無論傳統(tǒng)數(shù)據(jù)倉庫（如Teradata）還是新興的云數(shù)據(jù)倉庫系統(tǒng)（AWS Redshift、Google BigQuery、阿里云MaxCompute）均體現(xiàn)了數(shù)倉的設(shè)計本質(zhì)，它們均沒有對外暴露文件系統(tǒng)，而是提供了數(shù)據(jù)進出的服務(wù)接口。

比如，Teradata提供了CLI數(shù)據(jù)導(dǎo)入工具，Redshift提供Copy命令從S3或者EMR上導(dǎo)入數(shù)據(jù)，BigQuery提供Data Transfer服務(wù)，MaxCompute提供Tunnel服務(wù)以及MMA搬站工具供數(shù)據(jù)上傳和下載。這個設(shè)計可以帶來多個優(yōu)勢：

引擎深度理解數(shù)據(jù)，存儲和計算可做深度優(yōu)化
數(shù)據(jù)全生命周期管理，完善的血緣體系
細粒度的數(shù)據(jù)管理和治理
完善的元數(shù)據(jù)管理能力，易于構(gòu)建企業(yè)級數(shù)據(jù)中臺

正因為如此，阿里巴巴飛天大數(shù)據(jù)平臺建設(shè)之初，在選型的時候就采用了數(shù)據(jù)倉庫的架構(gòu)，即MaxCompute大數(shù)據(jù)平臺。

MaxCompute（原ODPS)，既是阿里巴巴經(jīng)濟體的大數(shù)據(jù)平臺，又是阿里云上的一種安全可靠、高效能、低成本、從GB到EB級別按需彈性伸縮的在線大數(shù)據(jù)計算服務(wù)（圖6是MaxCompute產(chǎn)品架構(gòu)，具體詳情請點擊阿里云MaxCompute官網(wǎng)地址）。

作為SaaS模式的企業(yè)級云數(shù)倉，MaxCompute廣泛應(yīng)用在阿里巴巴經(jīng)濟體、以及阿里云上互聯(lián)網(wǎng)、新金融、新零售、數(shù)字政府等數(shù)千家客戶。

▲圖6 MaxCompute云數(shù)倉產(chǎn)品架構(gòu)

得益于MaxCompute數(shù)據(jù)倉庫的架構(gòu)，阿里巴巴上層逐步構(gòu)建了“數(shù)據(jù)安全體系”、“數(shù)據(jù)質(zhì)量”、“數(shù)據(jù)治理”、“數(shù)據(jù)標簽”等管理能力，并最終形成了阿里巴巴的大數(shù)據(jù)中臺。可以說，作為最早數(shù)據(jù)中臺概念的提出者，阿里巴巴的數(shù)據(jù)中臺得益于數(shù)據(jù)倉庫的架構(gòu)。

▲圖7 阿里巴巴數(shù)據(jù)中臺架構(gòu)

04 數(shù)據(jù)湖?VS 數(shù)據(jù)倉庫

綜上，數(shù)據(jù)倉庫和數(shù)據(jù)湖，是大數(shù)據(jù)架構(gòu)的兩種設(shè)計取向。兩者在設(shè)計的根本分歧點是對包括存儲系統(tǒng)訪問、權(quán)限管理、建模要求等方面的把控。

數(shù)據(jù)湖優(yōu)先的設(shè)計，通過開放底層文件存儲，給數(shù)據(jù)入湖帶來了最大的靈活性。進入數(shù)據(jù)湖的數(shù)據(jù)可以是結(jié)構(gòu)化的，也可以是半結(jié)構(gòu)化的，甚至可以是完全非結(jié)構(gòu)化的原始日志。

另外，開放存儲給上層的引擎也帶來了更多的靈活度，各種引擎可以根據(jù)自己針對的場景隨意讀寫數(shù)據(jù)湖中存儲的數(shù)據(jù)，而只需要遵循相當寬松的兼容性約定（這樣的松散約定當然會有隱患，后文會提到）。

但同時，文件系統(tǒng)直接訪問使得很多更高階的功能很難實現(xiàn)，例如，細粒度（小于文件粒度）的權(quán)限管理、統(tǒng)一化的文件管理和讀寫接口升級也十分困難（需要完成每一個訪問文件的引擎升級，才算升級完畢）。

而數(shù)據(jù)倉庫優(yōu)先的設(shè)計，更加關(guān)注的是數(shù)據(jù)使用效率、大規(guī)模下的數(shù)據(jù)管理、安全/合規(guī)這樣的企業(yè)級成長性需求。數(shù)據(jù)經(jīng)過統(tǒng)一但開放的服務(wù)接口進入數(shù)據(jù)倉庫，數(shù)據(jù)通常預(yù)先定義 schema，用戶通過數(shù)據(jù)服務(wù)接口或者計算引擎訪問分布式存儲系統(tǒng)中的文件。

數(shù)據(jù)倉庫優(yōu)先的設(shè)計通過抽象數(shù)據(jù)訪問接口/權(quán)限管理/數(shù)據(jù)本身，來換取更高的性能（無論是存儲還是計算）、閉環(huán)的安全體系、數(shù)據(jù)治理的能力等，這些能力對于企業(yè)長遠的大數(shù)據(jù)使用都至關(guān)重要，我們稱之為成長性。

下圖是針對大數(shù)據(jù)技術(shù)棧，分別比較數(shù)據(jù)湖和數(shù)據(jù)倉庫各自的取舍。

▲圖8 數(shù)據(jù)湖和數(shù)據(jù)倉庫在技術(shù)棧上的對比

靈活性和成長性，對于處于不同時期的企業(yè)來說，重要性不同。

當企業(yè)處于初創(chuàng)階段，數(shù)據(jù)從產(chǎn)生到消費還需要一個創(chuàng)新探索的階段才能逐漸沉淀下來，那么用于支撐這類業(yè)務(wù)的大數(shù)據(jù)系統(tǒng)，靈活性就更加重要，數(shù)據(jù)湖的架構(gòu)更適用。
當企業(yè)逐漸成熟起來，已經(jīng)沉淀為一系列數(shù)據(jù)處理流程，問題開始轉(zhuǎn)化為數(shù)據(jù)規(guī)模不斷增長，處理數(shù)據(jù)的成本不斷增加，參與數(shù)據(jù)流程的人員、部門不斷增多，那么用于支撐這類業(yè)務(wù)的大數(shù)據(jù)系統(tǒng)，成長性的好壞就決定了業(yè)務(wù)能夠發(fā)展多遠。數(shù)據(jù)倉庫的架構(gòu)更適用。

本文有觀察到，相當一部分企業(yè)（尤其是新興的互聯(lián)網(wǎng)行業(yè)）從零開始架構(gòu)的大數(shù)據(jù)技術(shù)棧，正是伴隨開源 Hadoop 體系的流行，經(jīng)歷了這樣一個從探索創(chuàng)新到成熟建模的過程。

在這個過程中，因為數(shù)據(jù)湖架構(gòu)太過靈活而缺少對數(shù)據(jù)監(jiān)管、控制和必要的治理手段，導(dǎo)致運維成本不斷增加、數(shù)據(jù)治理效率降低，企業(yè)落入了『數(shù)據(jù)沼澤』的境地，即數(shù)據(jù)湖中匯聚了太多的數(shù)據(jù)，反而很難高效率的提煉真正有價值的那部分。最后只有遷移到數(shù)據(jù)倉庫優(yōu)先設(shè)計的大數(shù)據(jù)平臺，才解決了業(yè)務(wù)成長到一定規(guī)模后所出現(xiàn)的運維、成本、數(shù)據(jù)治理等問題。

還是舉阿里巴巴的例子，阿里巴巴成功的數(shù)據(jù)中臺戰(zhàn)略，正是在 2015 年前后阿里巴巴全集團完成 MaxCompute（數(shù)據(jù)倉庫）對多個 Hadoop（數(shù)據(jù)湖）的完全替換（登月項目）才逐步形成的。

▲圖9 數(shù)據(jù)湖的靈活性 VS 數(shù)據(jù)倉庫的成長性的示意圖

05 下一代演進方向：湖倉一體

經(jīng)過對數(shù)據(jù)湖和數(shù)據(jù)倉庫的深入闡述和比較，本文認為數(shù)據(jù)湖和數(shù)據(jù)倉庫作為大數(shù)據(jù)系統(tǒng)的兩條不同演進路線，有各自特有的優(yōu)勢和局限性。

數(shù)據(jù)湖和數(shù)據(jù)倉庫一個面向初創(chuàng)用戶友好，一個成長性更佳。對企業(yè)來說，數(shù)據(jù)湖和數(shù)據(jù)倉庫是否必須是一個二選一的選擇題？是否能有一種方案同時兼顧數(shù)據(jù)湖的靈活性和云數(shù)據(jù)倉庫的成長性，將二者有效結(jié)合起來為用戶實現(xiàn)更低的總體擁有成本？

將數(shù)倉和數(shù)據(jù)湖融合在一起也是業(yè)界近年的趨勢，多個產(chǎn)品和項目都做過對應(yīng)的嘗試：

1.?數(shù)倉支持數(shù)據(jù)湖訪問

2017年Redshift推出Redshift Spectrum，支持Redsift數(shù)倉用戶訪問S3數(shù)據(jù)湖的數(shù)據(jù)。
2018年阿里云MaxCompute推出外表能力，支持訪問包括OSS/OTS/RDS數(shù)據(jù)庫在內(nèi)的多種外部存儲。

但是無論是 Redshift Spectrum 還是 MaxCompute 的外部表，仍舊需要用戶在數(shù)倉中通過創(chuàng)建外部表來將數(shù)據(jù)湖的開放存儲路徑納入數(shù)倉的概念體系——由于一個單純的開放式存儲并不能自描述其數(shù)據(jù)本身的變化，因此為這些數(shù)據(jù)創(chuàng)建外部表、添加分區(qū)（本質(zhì)上是為數(shù)據(jù)湖中的數(shù)據(jù)建立 schema）無法完全自動化（需要人工或者定期觸發(fā) Alter table add partition 或 msck）。這對于低頻臨時查詢尚能接受，對于生產(chǎn)使用來說，未免有些復(fù)雜。

2.?數(shù)據(jù)湖支持數(shù)倉能力?

2011年，Hadoop開源體系公司Hortonworks開始了Apache Atlas和Ranger兩個開源項目的開發(fā)，分別對應(yīng)數(shù)據(jù)血緣追蹤和數(shù)據(jù)權(quán)限安全兩個數(shù)倉核心能力。但兩個項目發(fā)展并不算順利，直到 2017 年才完成孵化，時至今日，在社區(qū)和工業(yè)界的部署都還遠遠不夠活躍。核心原因數(shù)據(jù)湖與生俱來的靈活性。例如Ranger作為數(shù)據(jù)權(quán)限安全統(tǒng)一管理的組件，天然要求所有引擎均適配它才能保證沒有安全漏洞，但對于數(shù)據(jù)湖中強調(diào)靈活的引擎，尤其是新引擎來說，會優(yōu)先實現(xiàn)功能、場景，而不是把對接Ranger作為第一優(yōu)先級的目標，使得Ranger在數(shù)據(jù)湖上的位置一直很尷尬。
2018年，Nexflix開源了內(nèi)部增強版本的元數(shù)據(jù)服務(wù)系統(tǒng)Iceberg，提供包括MVCC（多版本并發(fā)控制）在內(nèi)的增強數(shù)倉能力，但因為開源HMS已經(jīng)成為事實標準，開源版本的Iceberg作為插件方式兼容并配合HMS，數(shù)倉管理能力大打折扣。
2018-2019年，Uber和Databricks相繼推出了Apache Hudi和DeltaLake，推出增量文件格式用以支持Update/Insert、事務(wù)等數(shù)據(jù)倉庫功能。新功能帶來文件格式以及組織形式的改變，打破了數(shù)據(jù)湖原有多套引擎之間關(guān)于共用存儲的簡單約定。為此，Hudi為了維持兼容性，不得不發(fā)明了諸如 Copy-On-Write、Merge-On-Read 兩種表，Snapshot Query、Incremental Query、Read Optimized Query 三種查詢類型，并給出了一個支持矩陣（如圖10），極大提升了使用的復(fù)雜度。

▲圖10 Hudi Support Matrix（來自網(wǎng)絡(luò)）

而DeltaLake則選擇了保證以Spark為主要支持引擎的體驗，相對犧牲對其他主流引擎的兼容性。這對其他引擎訪問數(shù)據(jù)湖中的Delta數(shù)據(jù)造成了諸多的限制和使用不便。

例如Presto要使用DeltaLake表，需要先用Spark創(chuàng)建manifest文件，再根據(jù)manifest創(chuàng)建外部表，同時還要注意manifest文件的更新問題；而Hive要使用DeltaLake表限制更多，不僅會造成元數(shù)據(jù)層面的混亂，甚至不能寫表。

上述在數(shù)據(jù)湖架構(gòu)上建立數(shù)倉的若干嘗試并不成功，這表明數(shù)倉和數(shù)據(jù)湖有本質(zhì)的區(qū)別，在數(shù)據(jù)湖體系上很難建成完善的數(shù)倉。數(shù)據(jù)湖與數(shù)據(jù)倉庫兩者很難直接合并成一套系統(tǒng)，因此作者團隊，開始基于融合兩者的思路進行探索。

所以我們提出下一代的大數(shù)據(jù)技術(shù)演進方向：湖倉一體，即打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系，讓數(shù)據(jù)和計算在湖和倉之間自由流動，從而構(gòu)建一個完整的有機的大數(shù)據(jù)技術(shù)生態(tài)體系。

我們認為，構(gòu)建湖倉一體需要解決三個關(guān)鍵問題：

湖和倉的數(shù)據(jù)/元數(shù)據(jù)無縫打通，且不需要用戶人工干預(yù)
湖和倉有統(tǒng)一的開發(fā)體驗，存儲在不同系統(tǒng)的數(shù)據(jù)，可以通過一個統(tǒng)一的開發(fā)/管理平臺操作
數(shù)據(jù)湖與數(shù)據(jù)倉庫的數(shù)據(jù)，系統(tǒng)負責自動caching/moving，系統(tǒng)可以根據(jù)自動的規(guī)則決定哪些數(shù)據(jù)放在數(shù)倉，哪些保留在數(shù)據(jù)湖，進而形成一體化

我們將在下一章詳細介紹阿里云湖倉一體方案如何解決這三個問題。

06 阿里云湖倉一體方案

1. 整體架構(gòu)

阿里云MaxCompute在原有的數(shù)據(jù)倉庫架構(gòu)上，融合了開源數(shù)據(jù)湖和云上數(shù)據(jù)湖，最終實現(xiàn)了湖倉一體化的整體架構(gòu)（圖11）。

在該架構(gòu)中，盡管底層多套存儲系統(tǒng)并存，但通過統(tǒng)一的存儲訪問層和統(tǒng)一的元數(shù)據(jù)管理，向上層引擎提供一體的封裝接口，用戶可以聯(lián)合查詢數(shù)據(jù)倉庫和數(shù)據(jù)湖中的表。整體架構(gòu)還具備統(tǒng)一的數(shù)據(jù)安全、管理和治理等中臺能力。

▲圖11 阿里云湖倉一體整體架構(gòu)

針對第五章提出的湖倉一體的三個關(guān)鍵問題，MaxCompute實現(xiàn)了以下4個關(guān)鍵技術(shù)點。

1）快速接入

MaxCompute全新自創(chuàng)PrivateAccess網(wǎng)絡(luò)連通技術(shù)，在遵循云虛擬網(wǎng)絡(luò)安全標準的前提下，實現(xiàn)多租戶模式下特定用戶作業(yè)定向與IDC/ECS/EMR Hadoop集群網(wǎng)絡(luò)整體打通能力，具有低延遲、高獨享帶寬的特點。
經(jīng)過快速簡單的開通、安全配置步驟即可將數(shù)據(jù)湖和購買的 MaxCompute數(shù)倉相連通。

2）統(tǒng)一數(shù)據(jù)/元數(shù)據(jù)管理

MaxCompute實現(xiàn)湖倉一體化的元數(shù)據(jù)管理，通過DB元數(shù)據(jù)一鍵映射技術(shù)，實現(xiàn)數(shù)據(jù)湖和MaxCompute數(shù)倉的元數(shù)據(jù)無縫打通。MaxCompute通過向用戶開放創(chuàng)建external project的形式，將數(shù)據(jù)湖HiveMetaStore中的整個database直接映射為MaxCompute的project，對Hive Database的改動會實時反應(yīng)在這個project中，并可以在MaxCompute側(cè)隨時通過這個project進行訪問、計算其中的數(shù)據(jù)。與此同時，阿里云EMR數(shù)據(jù)湖解決方案也將推出Data Lake Formation，MaxCompute湖倉一體方案也會支持對該數(shù)據(jù)湖中的統(tǒng)一元數(shù)據(jù)服務(wù)的一鍵映射能力。MaxCompute側(cè)對external project的各種操作，也會實時反應(yīng)在Hive側(cè)，真正實現(xiàn)數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的無縫聯(lián)動，完全不需要類似聯(lián)邦查詢方案里的元數(shù)據(jù)人工干預(yù)步驟。
MaxCompute實現(xiàn)湖倉一體化的存儲訪問層，不僅支持內(nèi)置優(yōu)化的存儲系統(tǒng)，也無縫的支持外部存儲系統(tǒng)。既支持HDFS數(shù)據(jù)湖，也支持OSS云存儲數(shù)據(jù)湖，可讀寫各種開源文件格式。

3）統(tǒng)一開發(fā)體驗

數(shù)據(jù)湖里的Hive DataBase映射為MaxCompute external project，和普通project別無二致，同樣享受MaxCompute數(shù)倉里的數(shù)據(jù)開發(fā)、追蹤和管理功能。基于DataWorks強大的數(shù)據(jù)開發(fā)/管理/治理能力，提供統(tǒng)一的湖倉開發(fā)體驗，降低兩套系統(tǒng)的管理成本。
MaxCompute高度兼容Hive/Spark，支持一套任務(wù)可以在湖倉兩套體系中靈活無縫的運行。
同時，MaxCompute也提供高效的數(shù)據(jù)通道接口，可以讓數(shù)據(jù)湖中的Hadoop生態(tài)引擎直接訪問，提升了數(shù)倉的開放性。

4）自動數(shù)倉

湖倉一體需要用戶根據(jù)自身資產(chǎn)使用情況將數(shù)據(jù)在湖和倉之間進行合理的分層和存儲，以最大化湖和倉的優(yōu)勢。MaxCompute開發(fā)了一套智能cache技術(shù)，根據(jù)對歷史任務(wù)的分析來識別數(shù)據(jù)冷熱度，從而自動利用閑時帶寬將數(shù)據(jù)湖中的熱數(shù)據(jù)以高效文件格式cache在數(shù)據(jù)倉庫中，進一步加速數(shù)據(jù)倉庫的后續(xù)數(shù)據(jù)加工流程。不僅解決了湖倉之間的帶寬瓶頸問題，也達到了無須用戶參與即可實現(xiàn)數(shù)據(jù)分層管理/治理以及性能加速的目的。

2. 構(gòu)建湖倉一體化的數(shù)據(jù)中臺

基于MaxCompute湖倉一體技術(shù)，DataWorks可以進一步對湖倉兩套系統(tǒng)進行封裝，屏蔽湖和倉異構(gòu)集群信息，構(gòu)建一體化的大數(shù)據(jù)中臺，實現(xiàn)一套數(shù)據(jù)、一套任務(wù)在湖和倉之上無縫調(diào)度和管理。

企業(yè)可以使用湖倉一體化的數(shù)據(jù)中臺能力，優(yōu)化數(shù)據(jù)管理架構(gòu)，充分融合數(shù)據(jù)湖和數(shù)據(jù)倉庫各自優(yōu)勢。

使用數(shù)據(jù)湖做集中式的原始數(shù)據(jù)存儲，發(fā)揮數(shù)據(jù)湖的靈活和開放優(yōu)勢。又通過湖倉一體技術(shù)將面向生產(chǎn)的高頻數(shù)據(jù)和任務(wù)，無縫調(diào)度到數(shù)據(jù)倉庫中，以得到更好的性能和成本，以及后續(xù)一系列面向生產(chǎn)的數(shù)據(jù)治理和優(yōu)化，最終讓企業(yè)在成本和效率之間找到最佳平衡。

總體來說，MaxCompute湖倉一體為企業(yè)提供了一種更靈活更高效更經(jīng)濟的數(shù)據(jù)平臺解決方案，既適用于全新構(gòu)建大數(shù)據(jù)平臺的企業(yè)，也適合已有大數(shù)據(jù)平臺的企業(yè)進行架構(gòu)升級，可以保護現(xiàn)有投資和實現(xiàn)資產(chǎn)利舊。

▲圖12 DataWorks湖倉一體化數(shù)據(jù)中臺

3. 典型客戶案例：新浪微博應(yīng)用「湖倉一體」構(gòu)建混合云AI計算中臺

案例背景

微博機器學習平臺團隊，主要做社交媒體領(lǐng)域里的推薦主要做社交媒體領(lǐng)域里的推薦/排序、文本/圖像分類、反垃圾/反作弊等技術(shù)。技術(shù)架構(gòu)上主要圍繞開源Hadoop數(shù)據(jù)湖解決方案，一份HDFS存儲+多種計算引擎（hive、spark、flink），以滿足以AI為主的多計算場景需求。

但微博作為國內(nèi)Top的社交媒體應(yīng)用，當前的業(yè)務(wù)體量和復(fù)雜性已然進入到開源“無人區(qū)”，開源數(shù)據(jù)湖方案在性能和成本方面都無法滿足微博的要求。

微博借助阿里巴巴強大的飛天大數(shù)據(jù)和AI平臺能力（MaxC+PAI+DW ），解決了超大規(guī)模下的特征工程、模型訓練以及矩陣計算的性能瓶頸問題，進而形成了阿里巴巴MaxCompute平臺（數(shù)倉）+ 開源平臺（數(shù)據(jù)湖）共存的格局。?

核心痛點

微博希望借助這兩套異構(gòu)的大數(shù)據(jù)平臺，既保持面向AI的各類數(shù)據(jù)和計算的靈活性，又解決超大規(guī)模下的計算和算法的性能/成本問題。但因為這兩套大數(shù)據(jù)平臺在集群層面完全是割裂的，數(shù)據(jù)和計算無法在兩個平臺里自由流動，無形之中增加了大量的數(shù)據(jù)移動和計算開發(fā)等成本，進而制約了業(yè)務(wù)的發(fā)展。

主要的痛點是：

安排專人專項負責訓練數(shù)據(jù)同步，工作量巨大
訓練數(shù)據(jù)體量大，導(dǎo)致耗時多，無法滿足實時訓練的要求
新寫SQL數(shù)據(jù)處理query，無法復(fù)用Hive SQL原有query

▲圖13 新浪微博業(yè)務(wù)痛點示意

解決方案

為了解決上述的痛點問題，阿里云產(chǎn)品團隊和微博機器學習平臺團隊聯(lián)合共建湖倉一體新技術(shù)，打通了阿里巴巴MaxCompute云數(shù)倉和EMR Hadoop數(shù)據(jù)湖，構(gòu)建了一個跨湖和倉的AI計算中臺。

MaxCompute產(chǎn)品全面升級網(wǎng)絡(luò)基礎(chǔ)設(shè)施，打通用戶VPC私域，且依托Hive數(shù)據(jù)庫一鍵映射和強大完善的SQL/PAI引擎能力，將MaxCompute云數(shù)倉和EMR Hadoop數(shù)據(jù)湖技術(shù)體系無縫對接，實現(xiàn)湖和的倉統(tǒng)一且智能化管理和調(diào)度。

▲圖14 微博湖倉一體架構(gòu)圖

案例價值

不僅融合了數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢，在靈活性和效率上找到最佳平衡，還快速構(gòu)建了一套統(tǒng)一的AI計算中臺，極大提升該機器學習平臺團隊的業(yè)務(wù)支撐能力。無須進行數(shù)據(jù)搬遷和作業(yè)遷移，即可將一套作業(yè)無縫靈活調(diào)度在MaxCompute集群和EMR集群中。
SQL數(shù)據(jù)處理任務(wù)被廣泛運行到MaxCompute集群，性能有明顯提升。基于阿里巴巴PAI豐富且強大的算法能力，封裝出多種貼近業(yè)務(wù)場景的算法服務(wù)，滿足更多的業(yè)務(wù)需求。
MaxCompute云原生的彈性資源和EMR集群資源形成互補，兩套體系之間進行資源的削峰填谷，不僅減少作業(yè)排隊，且降低整體成本。

07 總結(jié)

數(shù)據(jù)湖和數(shù)據(jù)倉庫，是在今天大數(shù)據(jù)技術(shù)條件下構(gòu)建分布式系統(tǒng)的兩種數(shù)據(jù)架構(gòu)設(shè)計取向，要看平衡的方向是更偏向靈活性還是成本、性能、安全、治理等企業(yè)級特性。

但是數(shù)據(jù)湖和數(shù)據(jù)倉庫的邊界正在慢慢模糊，數(shù)據(jù)湖自身的治理能力、數(shù)據(jù)倉庫延伸到外部存儲的能力都在加強。在這樣的背景之下，MaxCompute 率先提出湖倉一體，為業(yè)界和用戶展現(xiàn)了一種數(shù)據(jù)湖和數(shù)據(jù)倉湖互相補充，協(xié)同工作的架構(gòu)。

這樣的架構(gòu)同時為用戶提供了數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的諸多企業(yè)級特性，將用戶使用大數(shù)據(jù)的總體擁有成本進一步降低，我們認為是下一代大數(shù)據(jù)平臺的演進方向。