大數(shù)據(jù)系統(tǒng)構(gòu)建
隨著社交網(wǎng)絡(luò)、網(wǎng)絡(luò)分析和智能型電子商務(wù)的興起,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)顯然已無法滿足海量數(shù)據(jù)的管理需求。 作為一種新的處理模式,大數(shù)據(jù)系統(tǒng)應(yīng)運(yùn)而生,它使用多臺(tái)機(jī)器并行工作,能夠?qū)A繑?shù)據(jù)進(jìn)行存儲(chǔ)、處理、分析,進(jìn)而幫助用戶從中提取對(duì)優(yōu)化流程、實(shí)現(xiàn)高增長率的有用信息,做更為精準(zhǔn)有效的決策。 但不可忽略的是,它也引入了大多數(shù)開發(fā)者并不熟悉的、困擾傳統(tǒng)架構(gòu)的復(fù)雜性問題。
本書將教你充分利用集群硬件優(yōu)勢的Lambda架構(gòu),以及專門用來捕獲和分析網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的新工具,來創(chuàng)建這些系統(tǒng)。它將描述一個(gè)可擴(kuò)展的、易于理解大數(shù)據(jù)系統(tǒng)的方法——可以由小團(tuán)隊(duì)構(gòu)建并運(yùn)行。本書共18章,除了介紹基本概念,其他章節(jié)采用“理論+示例”的方式來闡釋相關(guān)概念,并使用現(xiàn)實(shí)世界中的工具加以論證。其中,第1章介紹了數(shù)據(jù)系統(tǒng)的原理,給出了Lambda架構(gòu)的概述,并概述了構(gòu)建任何數(shù)據(jù)系統(tǒng)的廣義方法。第2~...
隨著社交網(wǎng)絡(luò)、網(wǎng)絡(luò)分析和智能型電子商務(wù)的興起,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)顯然已無法滿足海量數(shù)據(jù)的管理需求。 作為一種新的處理模式,大數(shù)據(jù)系統(tǒng)應(yīng)運(yùn)而生,它使用多臺(tái)機(jī)器并行工作,能夠?qū)A繑?shù)據(jù)進(jìn)行存儲(chǔ)、處理、分析,進(jìn)而幫助用戶從中提取對(duì)優(yōu)化流程、實(shí)現(xiàn)高增長率的有用信息,做更為精準(zhǔn)有效的決策。 但不可忽略的是,它也引入了大多數(shù)開發(fā)者并不熟悉的、困擾傳統(tǒng)架構(gòu)的復(fù)雜性問題。
本書將教你充分利用集群硬件優(yōu)勢的Lambda架構(gòu),以及專門用來捕獲和分析網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的新工具,來創(chuàng)建這些系統(tǒng)。它將描述一個(gè)可擴(kuò)展的、易于理解大數(shù)據(jù)系統(tǒng)的方法——可以由小團(tuán)隊(duì)構(gòu)建并運(yùn)行。本書共18章,除了介紹基本概念,其他章節(jié)采用“理論+示例”的方式來闡釋相關(guān)概念,并使用現(xiàn)實(shí)世界中的工具加以論證。其中,第1章介紹了數(shù)據(jù)系統(tǒng)的原理,給出了Lambda架構(gòu)的概述,并概述了構(gòu)建任何數(shù)據(jù)系統(tǒng)的廣義方法。第2~9章集中闡述Lambda架構(gòu)的批處理層。第10章和第11章集中闡述服務(wù)層,讓讀者了解只批量寫入的特定數(shù)據(jù)庫——這些數(shù)據(jù)庫比傳統(tǒng)數(shù)據(jù)庫更簡單,它們具有出色的性能,并具備可操作性、穩(wěn)健性等特點(diǎn)。第12~17章集中闡述速度層,讓讀者更明確地了解NoSQL數(shù)據(jù)庫、流處理和管理增量計(jì)算的復(fù)雜性。 第18章通過綜合回顧Lambda架構(gòu)的相關(guān)知識(shí),幫助讀者了解增量批處理、基本Lambda架構(gòu)的變種,以及如何充分利用資源。
作者簡介
Nathan Marz Cascalog和Storm的創(chuàng)始人。在2011年Twitter收購社交媒體數(shù)據(jù)分析公司BackType前,他是BackType首席工程師。在Twitter,他建立了流計(jì)算團(tuán)隊(duì),提供和開發(fā)共享基礎(chǔ)設(shè)施,為整個(gè)公司的關(guān)鍵實(shí)時(shí)應(yīng)用提供支持。他目前是Stealth startup的創(chuàng)始人。
James Warren Storm8的分析架構(gòu)師,精通大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)和科學(xué)計(jì)算。
譯者簡介
馬延輝,資深Hadoop技術(shù)專家,對(duì)Hadoop生態(tài)系統(tǒng)相關(guān)技術(shù)有著深刻的理解,在Hadoop開發(fā)和運(yùn)維方面積累了豐富的經(jīng)驗(yàn)。曾就職于阿里、Answers.com、暴風(fēng)等互聯(lián)網(wǎng)公司,從事Hadoop相關(guān)的研發(fā)和運(yùn)維工作,對(duì)大數(shù)據(jù)技術(shù)的企業(yè)級(jí)落地、研發(fā)、運(yùn)維和管理有著深刻的理解和豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。開源HBase監(jiān)控工具Ella作者?,F(xiàn)在致力于...
作者簡介
Nathan Marz Cascalog和Storm的創(chuàng)始人。在2011年Twitter收購社交媒體數(shù)據(jù)分析公司BackType前,他是BackType首席工程師。在Twitter,他建立了流計(jì)算團(tuán)隊(duì),提供和開發(fā)共享基礎(chǔ)設(shè)施,為整個(gè)公司的關(guān)鍵實(shí)時(shí)應(yīng)用提供支持。他目前是Stealth startup的創(chuàng)始人。
James Warren Storm8的分析架構(gòu)師,精通大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)和科學(xué)計(jì)算。
譯者簡介
馬延輝,資深Hadoop技術(shù)專家,對(duì)Hadoop生態(tài)系統(tǒng)相關(guān)技術(shù)有著深刻的理解,在Hadoop開發(fā)和運(yùn)維方面積累了豐富的經(jīng)驗(yàn)。曾就職于阿里、Answers.com、暴風(fēng)等互聯(lián)網(wǎng)公司,從事Hadoop相關(guān)的研發(fā)和運(yùn)維工作,對(duì)大數(shù)據(jù)技術(shù)的企業(yè)級(jí)落地、研發(fā)、運(yùn)維和管理有著深刻的理解和豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。開源HBase監(jiān)控工具Ella作者?,F(xiàn)在致力于大數(shù)據(jù)技術(shù)在傳統(tǒng)行業(yè)的落地和大數(shù)據(jù)技術(shù)的普及和推廣。
向磊,前暴風(fēng)影音數(shù)據(jù)平臺(tái)架構(gòu)師,目前在某垂直電商平臺(tái)擔(dān)任技術(shù)總監(jiān),惠普中國Hadoop相關(guān)課程講師。開源項(xiàng)目EasyHadoop、phpHiveAdmin作者,對(duì)Hadoop及其周邊生態(tài)系統(tǒng)的底層運(yùn)維及開發(fā)、集群自動(dòng)化運(yùn)維、網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、集群安全、性能優(yōu)化、嵌入式編程方面有較深入了解。
魏東琦,博士,長期從事軟件研發(fā)工作,現(xiàn)就職于中國地質(zhì)調(diào)查局西安地質(zhì)調(diào)查中心,參加、承擔(dān)過多項(xiàng)科研項(xiàng)目?,F(xiàn)致力于地質(zhì)行業(yè)與大數(shù)據(jù)技術(shù)融合的相關(guān)研究工作。
