S4Yahoo的分布式流計(jì)算平臺(tái)
S4是Yahoo!發(fā)布的一個(gè)開源通用、分布式、可擴(kuò)展、部分容錯(cuò)、具備可插拔功能的平臺(tái)。這套平臺(tái)主要是為了方便開發(fā)者開發(fā)處理流式數(shù)據(jù)(continuous unbounded streams of data)的應(yīng)用。Yahoo!之所以開發(fā)S4系統(tǒng),主要是為了解決它現(xiàn)實(shí)的問(wèn)題:搜索廣告的展現(xiàn)。搜索廣告是當(dāng)前各大搜索引擎的主要收入來(lái)源,用戶發(fā)出查詢請(qǐng)求,搜索引擎在返回正常結(jié)果的同時(shí)也會(huì)返回相關(guān)廣告,而廣告是按照點(diǎn)擊付費(fèi)。為了在最好的位置,放置最相關(guān)(也就是用戶最有可能點(diǎn)擊)的廣告,各大搜索引擎使用了大量的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行相關(guān)性計(jì)算,以便提高收入,滿足用戶需求。其中很重要的一點(diǎn)就是要不斷分析用戶的點(diǎn)擊反饋,以便捕獲用戶的行為。S4最初主要還只是用來(lái)處理用戶的點(diǎn)擊反饋。
評(píng)論
圖片
表情
