為什么Spark能成為最火的大數(shù)據(jù)計(jì)算引擎?它是怎樣工作的?
導(dǎo)讀:零基礎(chǔ)入門Spark必讀。

重復(fù)工作:不同的系統(tǒng)之間都需要解決一些相同的共性問題,比如分布式執(zhí)行和容錯(cuò)性。例如MapReduce、SQL查詢引擎和機(jī)器學(xué)習(xí)系統(tǒng)都會(huì)涉及聚合操作。 組合:不同系統(tǒng)之間的組合使用非常“昂貴”,因?yàn)椴煌到y(tǒng)之間無法有效的功效數(shù)。為了組合使用我們需要將數(shù)據(jù)在不同的系統(tǒng)之間頻繁的導(dǎo)出導(dǎo)入,數(shù)據(jù)用來移動(dòng)的時(shí)間可能都會(huì)超過計(jì)算的時(shí)間。 維護(hù)成本:雖然這些系統(tǒng)從每個(gè)個(gè)體的角度來看都十分優(yōu)秀,但是它們都是在不同時(shí)期由不同的團(tuán)隊(duì)設(shè)計(jì)實(shí)現(xiàn)的,其設(shè)計(jì)思路和實(shí)現(xiàn)方式也各不相同。這導(dǎo)致平臺(tái)在部署運(yùn)維這些系統(tǒng)的時(shí)候十分痛苦,因?yàn)樗鼈儾町愄罅恕?/span> 學(xué)習(xí)成本:系統(tǒng)之間巨大的差異性對于開發(fā)人員來講更是如此,這些技術(shù)框架擁有不同的邏輯對象、專業(yè)術(shù)語、API和編程模型,每種框架都需要重新學(xué)習(xí)一遍才能使用。





相關(guān)閱讀:
評(píng)論
圖片
表情
