Spark高級數(shù)據(jù)分析
本書是使用Spark進行大規(guī)模數(shù)據(jù)分析的實戰(zhàn)寶典,由著名大數(shù)據(jù)公司Cloudera的數(shù)據(jù)科學(xué)家撰寫。四位作者首先結(jié)合數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析的廣闊背景講解了Spark,然后介紹了用Spark和Scala進行數(shù)據(jù)處理的基礎(chǔ)知識,接著討論了如何將Spark用于機器學(xué)習(xí),同時介紹了常見應(yīng)用中幾個最常用的算法。此外還收集了一些更加新穎的應(yīng)用,比如通過文本隱含語義關(guān)系來查詢Wikipedia或分析基因數(shù)據(jù)。
Sandy Ryza
是Cloudera公司資深數(shù)據(jù)科學(xué)家,Apache Spark項目的活躍代碼貢獻者。最近領(lǐng)導(dǎo)了Cloudera公司的Spark開發(fā)工作。他還是Hadoop項目管理委員會委員。
Uri Laserson
是Cloudera公司資深數(shù)據(jù)科學(xué)家,專注于Hadoop生態(tài)系統(tǒng)中的Python部分。
Sean Owen
是Cloudera公司EMEA地區(qū)的數(shù)據(jù)科學(xué)總監(jiān),也是Apache Spark項目的代碼提交者。他創(chuàng)立了基于Spark、Spark Streaming和Kafka的Hadoop實時大規(guī)模學(xué)習(xí)項目Oryx(之前稱為Myrrix)。
Josh Wills
是Cloudera公司的高級數(shù)據(jù)科學(xué)總監(jiān),Apache Crunch項目的發(fā)起者和副總裁。
