日本黄色小视频,中国一级久久毛,在线亚洲欧美,国产女人18毛片水真多成人如厕,高清无码在线免费观看视频,国产操比,欧美男女日逼,插插插色综合

↑↑↑點(diǎn)擊上方藍(lán)字，回復(fù)資料，10個G的驚喜

導(dǎo)讀：本文分析一下典型硅谷互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)平臺架構(gòu)。

作者：彭鋒宋文欣孫浩峰來源：大數(shù)據(jù)DT（ID：hzdashuju）

01 Twitter的大數(shù)據(jù)平臺架構(gòu)

Twitter是最早一批推進(jìn)數(shù)字化運(yùn)營的硅谷企業(yè)之一，其公司運(yùn)營和產(chǎn)品迭代的很多功能是由其底層的大數(shù)據(jù)平臺提供的。圖7-2所示為Twitter大數(shù)據(jù)平臺的基本示意圖。

▲圖7-2 Twitter大數(shù)據(jù)平臺架構(gòu)

Twitter的大數(shù)據(jù)平臺開發(fā)比較早，很多組件是其內(nèi)部開發(fā)的，后面都有開源組件來對應(yīng)。

Production Hosts：直接服務(wù)用戶的生產(chǎn)服務(wù)器，也就是業(yè)務(wù)系統(tǒng)。
MySQL/Gizzard：用戶關(guān)系圖存在于Twitter的大規(guī)模MySQL分布式集群中，使用單個MySQL作為存儲單位，在上面增加一層分布式協(xié)調(diào)數(shù)據(jù)分片（sharding）和調(diào)度的系統(tǒng)。
Distributed Crawler, Crane：類似于Sqoop和DataX的系統(tǒng)，可以從MySQL中將業(yè)務(wù)數(shù)據(jù)導(dǎo)出到Hadoop、HBase、Vertica里，主要用Java編寫。
Vertica：大規(guī)模分布式數(shù)據(jù)處理系統(tǒng)（MPP），可以理解為一個以O(shè)LAP為主要任務(wù)的分布式數(shù)據(jù)庫，主要用于建設(shè)數(shù)據(jù)倉庫。類似的商業(yè)產(chǎn)品有Teradata、Greenplum等，類似的開源工具有Presto、Impala等。
Rasvelg：基于SQL的ETL工具，主要用于數(shù)據(jù)清洗、治理和數(shù)據(jù)倉庫建設(shè)。
ScribeAggregators：日志實(shí)時采集工具，類似于Flume和Logstash，主要目的是將日志實(shí)時采集到Hadoop集群中（圖7-2中的RT Hadoop Cluster）。
Log Events：主要是將客戶端埋點(diǎn)的數(shù)據(jù)或其他需要實(shí)時處理的數(shù)據(jù)寫入各種消息中間件中。
EventBus、Kafka、Kestrel queue：Kafka是開源的消息中間件，EventBus和Kestrel都是Kafka出現(xiàn)之前Twitter內(nèi)部開發(fā)的消息中間件。需要內(nèi)部系統(tǒng)的原因是有些業(yè)務(wù)需要類似于exactly-once（確定一次）的語義或者其他特殊需求，而Kafka成熟較晚，直到2017年的0.11版才推出exactly-once這種語義。
Storm、Heron：消息中間件的數(shù)據(jù)會被一個實(shí)時處理系統(tǒng)處理。Twitter早期用的是Storm，但后來發(fā)現(xiàn)Storm性能和開發(fā)問題比較大，就自己用C++開發(fā)了一個與Storm API兼容的系統(tǒng)Heron來取代Storm，并在2016年開源。
Nighthawk、Manhattan：Nighthawk是sharded Redis，Manhattan是sharded key-value store（用來取代Cassandra），推文、私信等用戶信息存放在Manhattan里，Nighthawk作為緩存，這些組件是直接服務(wù)業(yè)務(wù)的；實(shí)時處理的數(shù)據(jù)和一些批處理分析的數(shù)據(jù)也會放在這里，被業(yè)務(wù)系統(tǒng)調(diào)用。
LogMover：日志復(fù)制工具，主要使用Hadoop的distcp功能將日志從實(shí)時服務(wù)器復(fù)制到另一個大的生產(chǎn)集群。
第三方數(shù)據(jù)：例如蘋果應(yīng)用商店的數(shù)據(jù)，這些數(shù)據(jù)使用定制的爬蟲程序在Crane框架里執(zhí)行。
Pig、Hive、Scalding、Spark：各種內(nèi)部批處理分析框架，也用來開發(fā)ETL工具。
DirReplicator：用來在各個數(shù)據(jù)中心、冷熱Hadoop集群、測試/生產(chǎn)集群中同步數(shù)據(jù)目錄。
DAL：Twitter的數(shù)據(jù)門戶，基本上所有的數(shù)據(jù)操作都要經(jīng)過DAL的處理。
Tableau、Birdbrain：Twitter的數(shù)據(jù)可視化/BI工具，Tableau是通用的商業(yè)化工具，主要供具有統(tǒng)計背景的數(shù)據(jù)分析師使用；Birdbrain是內(nèi)部的BI系統(tǒng)，它將最常用的報表和指標(biāo)做成自助式的工具，確保從CEO到銷售人員都可以使用。

實(shí)際上，F(xiàn)acebook、Twitter、LinkedIn、EA、Uber、Airbnb、Lyft、Pinterest以及很多其他硅谷公司的大數(shù)據(jù)平臺架構(gòu)都非常類似，下面我們以Airbnb和Uber的數(shù)據(jù)平臺架構(gòu)為例進(jìn)行介紹，看看它們之間的共同點(diǎn)。

02 Airbnb的大數(shù)據(jù)平臺架構(gòu)

圖7-3展示了Airbnb的大數(shù)據(jù)平臺架構(gòu)。

▲圖7-3 Airbnb大數(shù)據(jù)平臺架構(gòu)

Airbnb采用可擴(kuò)展的大數(shù)據(jù)平臺以確保產(chǎn)品能滿足業(yè)務(wù)的增長，并對Hive集群單獨(dú)區(qū)分金集群和銀集群，對數(shù)據(jù)存儲和計算進(jìn)行分離以保證災(zāi)難恢復(fù)。

數(shù)據(jù)源：包含各種業(yè)務(wù)數(shù)據(jù)的采集，例如將數(shù)據(jù)埋點(diǎn)事件日志發(fā)送到Kafka，MySQL數(shù)據(jù)通過數(shù)據(jù)傳輸組件Sqoop傳輸?shù)紿ive集群。
存儲：使用的是Hadoop的HDFS和AWS的S3。
復(fù)制：有專門的復(fù)制程序在金、銀集群中復(fù)制數(shù)據(jù)。
資源管理：用到了YARN，同時通過Druid和亞馬遜的RDS實(shí)現(xiàn)對數(shù)據(jù)庫連接的監(jiān)控、操作與擴(kuò)展。
計算：主要采用MapReduce、Hive、Spark、Presto。其中，Presto是Facebook研發(fā)的一套開源的分布式SQL查詢引擎，適用于交互式分析查詢。
調(diào)度：開發(fā)并開源了任務(wù)調(diào)度系統(tǒng)Airflow，可以跨平臺運(yùn)行Hive、Presto、Spark、MySQL等Job，并提供調(diào)度和監(jiān)控功能。
查詢：主要使用Presto。
可視化：開發(fā)了負(fù)責(zé)界面顯示的Airpal、簡易的數(shù)據(jù)搜索分析工具Caravel及Tableau公司的可視化數(shù)據(jù)分析產(chǎn)品。

03 Uber的大數(shù)據(jù)平臺架構(gòu)

圖7-4顯示了Uber的第二代大數(shù)據(jù)平臺架構(gòu)。

2015年前后，Uber開始圍繞Hadoop生態(tài)系統(tǒng)重新構(gòu)建新的大數(shù)據(jù)平臺。Uber引入了一個Hadoop數(shù)據(jù)湖，其中所有原始數(shù)據(jù)僅從不同的在線數(shù)據(jù)存儲中攝取一次，并且在攝取期間不進(jìn)行轉(zhuǎn)換。這種設(shè)計降低了在線數(shù)據(jù)存儲的壓力，使Uber能夠從臨時攝取作業(yè)過渡到可擴(kuò)展的攝取平臺。

▲圖7-4 Uber大數(shù)據(jù)平臺架構(gòu)

除了整合Hadoop之外，Uber還使該生態(tài)系統(tǒng)中的所有數(shù)據(jù)服務(wù)都可以橫向擴(kuò)展，從而提高了大數(shù)據(jù)平臺的效率和穩(wěn)定性，而且具有這種通用的水平可擴(kuò)展性可以快速滿足新業(yè)務(wù)需求。Uber第二代大數(shù)據(jù)平臺中包括以下組件。

實(shí)時數(shù)據(jù)采集：Kafka。
鍵值數(shù)據(jù)庫：類似于Twitter的Manhattan。
RDBMS DB：關(guān)系型數(shù)據(jù)庫。
Ingestion：數(shù)據(jù)采集（這里它強(qiáng)調(diào)了強(qiáng)制類型檢查，即schema enforced，強(qiáng)制類型檢查是數(shù)據(jù)治理中的一環(huán)）。
數(shù)據(jù)采集、存儲：主要使用Hadoop，采取Twitter開源的列式存儲格式Parquet，構(gòu)建了一個集中模式服務(wù)來收集、存儲相關(guān)客戶端庫，將不同服務(wù)數(shù)據(jù)模式集成到這個中央模式服務(wù)中。
ETL：在Hadoop數(shù)據(jù)湖上進(jìn)行數(shù)據(jù)的整合、治理、分析。
數(shù)據(jù)倉庫：使用Vertica，主要存儲從數(shù)據(jù)湖中計算出來的寬表，因?yàn)樘幚砟芰τ邢蓿话阒淮鎯ψ罱臄?shù)據(jù)。
計算框架：采用MapReduce、Hive、Spark和Presto。
查詢工具：使用Presto來實(shí)現(xiàn)交互式查詢，使用Spark對原始數(shù)據(jù)進(jìn)行編程訪問，使用Hive進(jìn)行非常大的離線查詢，并允許用戶根據(jù)需求進(jìn)行選擇。
支持的數(shù)據(jù)應(yīng)用：建模、機(jī)器學(xué)習(xí)、運(yùn)營人員、A/B測試。
支持隨機(jī)查詢：運(yùn)營人員、數(shù)據(jù)科學(xué)家。

04 云平臺作為大數(shù)據(jù)平臺的通用底座

在上面的幾張架構(gòu)圖中，沒有明確指出這樣一個事實(shí)：絕大部分硅谷高科技公司的大數(shù)據(jù)平臺是建立在一個底層云平臺架構(gòu)之上的。因?yàn)檫@是一個共識，所以大部分架構(gòu)圖中省略了這一層。

例如，很多硅谷的公司，從幾十人的小公司到幾千人的上市公司，在基于Apache Mesos來打造它們的大數(shù)據(jù)平臺。那么它們?yōu)楹芜x擇Apache Mesos作為基礎(chǔ)平臺呢？

Apache Mesos是一個分布式集群管理系統(tǒng)，提供了高效、跨分布式的資源隔離和共享以及分布式計算的管理和調(diào)度。該系統(tǒng)目前被業(yè)界領(lǐng)先公司廣泛應(yīng)用到生產(chǎn)環(huán)境和大數(shù)據(jù)系統(tǒng)中，如蘋果公司使用Mesos管理3000臺集群來支持Siri語音識別應(yīng)用，Twitter使用Mesos管理近萬臺機(jī)器的生產(chǎn)環(huán)境集群。

Apache Mesos是目前比較先進(jìn)并經(jīng)過生產(chǎn)環(huán)境驗(yàn)證的分布式集群管理系統(tǒng)。

作為一個數(shù)據(jù)中心管理系統(tǒng)，Mesos最重要的功能實(shí)際上就是基于混合技術(shù)做二層調(diào)度和資源管理。Mesos不僅支持容器技術(shù)，還支持非容器化的應(yīng)用，實(shí)現(xiàn)整個資源池的混合架構(gòu)、資源的抽象、扁平化管理，最終實(shí)現(xiàn)對上層分布式應(yīng)用（如Spark、Cassandra、Hadoop等）的支持。

Mesos最大的特征及優(yōu)勢是對海量集群的商業(yè)和企業(yè)級支持。在Mesos的發(fā)展歷程中有很多問題被發(fā)現(xiàn)和解決，并據(jù)此在商業(yè)環(huán)境中持續(xù)迭代Mesos的代碼倉庫，這樣就形成了持續(xù)迭代和持續(xù)優(yōu)化的機(jī)制。

Mesos能夠用于大型甚至是超大型集群（主機(jī)數(shù)在萬臺以上的集群），在這之上，Mesos實(shí)現(xiàn)了企業(yè)級的高可用性。總的來說，這種對超大規(guī)模集群的支持以及被驗(yàn)證過的企業(yè)級高可用性是Mesos最主要的優(yōu)勢。

Mesos源于Google的論文“Large-scale cluster management at Google with Borg”，其中描述了Google的Borg系統(tǒng)是如何管理它的海量服務(wù)器和數(shù)據(jù)中心的。

Mesos的主要作者Ben Hindman在加州大學(xué)伯克利分校讀博期間，根據(jù)Borg的主要思路寫了一個分布式數(shù)據(jù)中心管理系統(tǒng)。Twitter在2010年高速發(fā)展時碰到了數(shù)據(jù)中心的管理問題，于是就把Hindman招募過來，并將Mesos作為自己的數(shù)據(jù)中心管理系統(tǒng)。

經(jīng)過Twitter工程團(tuán)隊的大力推進(jìn)和實(shí)際生產(chǎn)驗(yàn)證，Mesos在生產(chǎn)環(huán)境中很快就能管理上萬臺機(jī)器的集群，也因此在業(yè)界樹立了數(shù)據(jù)中心管理的標(biāo)桿。

同一時期，Uber、Airbnb、Lyft、Pinterest等公司正好也處于起步階段，而它們在生產(chǎn)中碰到的問題與Twitter高度相似。因此，它們也就自然而然地選擇了基于Mesos來打造自己的大數(shù)據(jù)平臺。下面以Airbnb為例，看看它為什么會選擇Mesos。

首先，在有Mesos之前，Airbnb大部分的開發(fā)人員和用戶有很多數(shù)據(jù)需要計算，而用以前的方式很難平衡資源，不僅需要找機(jī)器來配置，還要安裝一些Spark的集群工具。因此，數(shù)據(jù)開發(fā)人員難以及時處理數(shù)據(jù)并進(jìn)行大數(shù)據(jù)計算。

而Mesos正好解決了開發(fā)人員的數(shù)據(jù)計算需求與資源供給之間的矛盾。在解決這個矛盾的過程中，研發(fā)人員就能夠很輕松地完成大數(shù)據(jù)的計算和對相關(guān)運(yùn)維的支持，后續(xù)也為研發(fā)人員帶來了很多益處。

其次，Airbnb研發(fā)人員會用到Cassandra之類的工具，在使用Mesos以前，這需要先準(zhǔn)備機(jī)器，安裝操作系統(tǒng)、Spark集群、相關(guān)的依賴包，安裝和使用十分困難。而使用了Mesos之后，新分布式應(yīng)用上線和開發(fā)人員之間的矛盾就得以解決，從而能夠及時滿足研發(fā)人員對于新應(yīng)用、新分布式系統(tǒng)的需求。

體會到Mesos對分布式開發(fā)流程顛覆式的改進(jìn)之后，Airbnb的兩名早期數(shù)據(jù)平臺員工Tobias Knaup及Florian Leibert在2013年共同創(chuàng)立了Mesosphere公司。

Leibert曾是Twitter早期用戶增長團(tuán)隊的成員和數(shù)據(jù)平臺的用戶，他也是在Twitter使用了Mesos之后意識到其優(yōu)勢并將Mesos引入Airbnb。2014年Hindman也加入其中，全職推廣Mesos。

他們認(rèn)為Apache Mesos是一個開源的孵化項(xiàng)目，它不僅能服務(wù)于Twitter、Facebook這樣的大公司，還應(yīng)該更多地服務(wù)于早期Airbnb這樣的中小企業(yè)。

因此，他們創(chuàng)立了DC/OS這個項(xiàng)目，通過DC/OS的開發(fā)和商業(yè)化，幫助很多中小企業(yè)客戶在工程師能力不足的情況下，也能受益于Mesos帶來的好處。從廣義上來說，他們普及了Mesos的應(yīng)用。

實(shí)際上，Apache Mesos類似于Linux的內(nèi)核，DC/OS則是基于內(nèi)核之上的分布式應(yīng)用系統(tǒng)。隨著DC/OS的發(fā)展，在DC/OS中的許多基于Mesos的監(jiān)控、日志管理、用戶管理、多租戶、安全等外圍運(yùn)維服務(wù)也隨之成長起來。

總而言之，DC/OS是基于Mesos的開源技術(shù)，Mesosphere是基于DC/OS開源技術(shù)所做的企業(yè)級封裝，也是構(gòu)建數(shù)據(jù)基礎(chǔ)架構(gòu)的核心平臺。

05 硅谷大數(shù)據(jù)平臺架構(gòu)的共性和建設(shè)思路

從以上大數(shù)據(jù)平臺的架構(gòu)范例中，我們可以看出以下幾個共性。

統(tǒng)一的平臺支持端到端的數(shù)據(jù)工具體系，尤其強(qiáng)調(diào)體現(xiàn)數(shù)據(jù)價值的應(yīng)用。
強(qiáng)調(diào)數(shù)據(jù)能力的閉環(huán)，從數(shù)據(jù)的產(chǎn)生、使用到最后反饋到產(chǎn)品。
數(shù)據(jù)的采集、治理、分析、使用由所有部門在統(tǒng)一體系中完成。
主要的基礎(chǔ)組件大部分采用成熟系統(tǒng)，如Hadoop、Hive、Kafka、Spark、Vertica。
自己開發(fā)一些側(cè)重用戶交互的組件，如ETL開發(fā)調(diào)度平臺、數(shù)據(jù)門戶、建模/數(shù)據(jù)治理。

這些共性體現(xiàn)在TotalPlatform的概念中，即要求整個企業(yè)的數(shù)據(jù)工作在統(tǒng)一平臺中完成。此外，還有一些在架構(gòu)圖中沒有顯示，卻是大部分?jǐn)?shù)據(jù)平臺都很重視的部分，如TotalInsight的概念：

全局的數(shù)據(jù)和應(yīng)用資產(chǎn)的管理和運(yùn)營；
明確平臺團(tuán)隊和業(yè)務(wù)團(tuán)隊的分工和合作；
重視可衡量的數(shù)據(jù)能力。

從上述介紹可以看到，硅谷企業(yè)在數(shù)據(jù)平臺的建設(shè)上一般都會采取比較開放的思路，從現(xiàn)有的比較合理的開源架構(gòu)起步，搭建好自己的基礎(chǔ)平臺，解決基礎(chǔ)問題之后再來迭代。

它們在這個過程中會開發(fā)一些新技術(shù)，解決一些新問題，這些新技術(shù)和解決問題的新方法有的回饋到開源社區(qū)，有的就在自己公司內(nèi)部使用。大家都想避免重復(fù)造輪子，這主要是基于以下幾方面的考慮：

重復(fù)造輪子風(fēng)險大、投入高、見效慢；
自己造的輪子沒有社區(qū)，原始開發(fā)人員離職后難以招人替代；
開發(fā)人員更愿意使用現(xiàn)有開源工具，閉源系統(tǒng)很難招到頂尖人才；
閉源開發(fā)的系統(tǒng)迭代一般比開源要慢很多，如果趕不上，差距會越來越大；
涉及系統(tǒng)越來越復(fù)雜，一個公司很難自己覆蓋所有系統(tǒng)。

我們知道很多大公司內(nèi)部開發(fā)的優(yōu)秀產(chǎn)品因?yàn)闆]有開源，后續(xù)迭代減慢，逐漸被開源產(chǎn)品取代。但是，并非所有層次的產(chǎn)品都適合開源，也并非所有的系統(tǒng)都適合選擇開源產(chǎn)品。我們建議的思路如下。

基礎(chǔ)架構(gòu)組件：這方面的產(chǎn)品或組件最好選擇成熟的開源體系，因?yàn)槌墒斓拈_源體系經(jīng)過了眾多企業(yè)的千錘百煉，具有較高的穩(wěn)定性和可靠性，而如果自己重新來做，未知因素太多，坑也太多。
用戶交互組件：在基礎(chǔ)架構(gòu)之上與用戶打交道的交互產(chǎn)品，因?yàn)楦鱾€企業(yè)使用習(xí)慣不一樣，底層技術(shù)棧不一樣，所以最好選擇定制服務(wù)或者自主開發(fā)。

關(guān)于作者：彭鋒，智領(lǐng)云科技聯(lián)合創(chuàng)始人兼CEO。武漢大學(xué)計算機(jī)系本科及碩士，美國馬里蘭大學(xué)計算機(jī)專業(yè)博士，主要研究方向是流式半結(jié)構(gòu)化數(shù)據(jù)的高性能查詢引擎，在數(shù)據(jù)庫頂級會議和期刊SIGMOD、ICDE、TODS上發(fā)表多篇開創(chuàng)性論文。2011年加入Twitter，任大數(shù)據(jù)平臺主任工程師、公司架構(gòu)師委員會大數(shù)據(jù)負(fù)責(zé)人，負(fù)責(zé)公司大數(shù)據(jù)平臺及流水線的建設(shè)和管理。

宋文欣，智領(lǐng)云科技聯(lián)合創(chuàng)始人兼CTO。武漢大學(xué)計算機(jī)系本科及碩士，美國紐約州立大學(xué)石溪分校計算機(jī)專業(yè)博士。曾先后就職于Ask.com和EA（電子藝界）。2016年回國聯(lián)合創(chuàng)立智領(lǐng)云科技有限公司，組建智領(lǐng)云技術(shù)團(tuán)隊，開發(fā)了BDOS大數(shù)據(jù)平臺操作系統(tǒng)。

孫浩峰，智領(lǐng)云科技市場總監(jiān)。前CSDN內(nèi)容運(yùn)營副總編，關(guān)注云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術(shù)領(lǐng)域，對云計算、網(wǎng)絡(luò)技術(shù)、網(wǎng)絡(luò)存儲有深刻認(rèn)識。擁有豐富的媒體從業(yè)經(jīng)驗(yàn)和專業(yè)的網(wǎng)絡(luò)安全技術(shù)功底，具有超過15年的企業(yè)級IT市場傳播、推廣、宣傳和寫作經(jīng)驗(yàn)，撰寫過多篇在業(yè)界具有一定影響力的文章。

本文摘編自《云原生數(shù)據(jù)中臺：架構(gòu)、方法論與實(shí)踐》，經(jīng)出版方授權(quán)發(fā)布。

延伸閱讀《云原生數(shù)據(jù)中臺：架構(gòu)、方法論與實(shí)踐》

點(diǎn)擊上圖了解及購買

轉(zhuǎn)載請聯(lián)系微信：DoctorData

推薦語：前Twitter大數(shù)據(jù)平臺主任工程師撰寫，融合硅谷與國內(nèi)經(jīng)驗(yàn)，全面講解云原生數(shù)據(jù)中臺架構(gòu)、選型、方法論、實(shí)施路徑，國內(nèi)外專家聯(lián)袂推薦。


也可以加一下老胡的微信
圍觀朋友圈~~~

推薦閱讀
（點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀）

微軟這個太強(qiáng)了
人工智能有多智障？
在公司內(nèi)網(wǎng)搭建 pip 鏡像站
【收藏】最全的Python常用標(biāo)準(zhǔn)庫及第三方庫
為什么美國學(xué)生學(xué)的數(shù)學(xué)比我們簡單，卻能做出很牛逼的東西？
老鐵，三連支持一下，好嗎？↓↓↓

【解密】硅谷互聯(lián)網(wǎng)公司的大數(shù)據(jù)平臺架構(gòu)