PrestoDB大數(shù)據(jù)查詢引擎
Presto是Facebook最新研發(fā)的數(shù)據(jù)查詢引擎,可對(duì)250PB以上的數(shù)據(jù)進(jìn)行快速地交互式分析。據(jù)稱該引擎的性能是 Hive 的 10 倍以上。
PrestoDB 是 Facebook 推出的一個(gè)大數(shù)據(jù)的分布式 SQL 查詢引擎。可對(duì)從數(shù) G 到數(shù) P 的大數(shù)據(jù)進(jìn)行交互式的查詢,查詢的速度達(dá)到商業(yè)數(shù)據(jù)倉庫的級(jí)別。
Presto 可以查詢包括 Hive、Cassandra 甚至是一些商業(yè)的數(shù)據(jù)存儲(chǔ)產(chǎn)品。單個(gè) Presto 查詢可合并來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行統(tǒng)一分析。
Presto 的目標(biāo)是在可期望的響應(yīng)時(shí)間內(nèi)返回查詢結(jié)果。Facebook 在內(nèi)部多個(gè)數(shù)據(jù)存儲(chǔ)中使用 Presto 交互式查詢,包括 300PB 的數(shù)據(jù)倉庫,超過 1000 個(gè) Facebook 員工每天在使用 Presto 運(yùn)行超過 3 萬個(gè)查詢,每天掃描超過 1PB 的數(shù)據(jù)。此外包括 Airbnb 和 Dropbox 也在使用 Presto 產(chǎn)品。
Presto 是一個(gè)分布式系統(tǒng),運(yùn)行在集群環(huán)境中,完整的安裝包括一個(gè)協(xié)調(diào)器 (coordinator) 和多個(gè) workers。查詢通過例如 Presto CLI 的客戶端提交到協(xié)調(diào)器,協(xié)調(diào)器負(fù)責(zé)解析、分析和安排查詢到不同的 worker 上執(zhí)行。
此外,Presto 需要一個(gè)數(shù)據(jù)源來運(yùn)行查詢。當(dāng)前 Presto 包含一個(gè)插件用來查詢 Hive 上的數(shù)據(jù),要求:
-
Hadoop CDH4
-
遠(yuǎn)程 Hive metastore service
Presto 不使用 MapReduce ,只需要 HDFS
要求:
-
Mac OS X or Linux
-
Java 7, 64-bit
-
Maven 3 (for building)
-
Python 2.4+ (for running with the launcher script)
