Oryx開源機器學(xué)習(xí)項目
Oryx的目標(biāo)是幫助Hadoop用戶搭建并部署能夠?qū)崟r查詢的機器學(xué)習(xí)模型,例如垃圾郵件過濾和推薦引擎。隨著數(shù)據(jù)的不斷流入,Oryx還將支持自我更新。
無論從建模還是部署,Oryx都可以隨需擴(kuò)展,Owen認(rèn)為這是Oryx與Hadoop的傳統(tǒng)“甜蜜點”——探索性分析和運營性分析最大的不同。
Owen認(rèn)為傳統(tǒng)的在Hadoop上部署機器學(xué)習(xí)的技術(shù)——Apache Mahout已經(jīng)走到盡頭。
“Mahout受制于第一代MapReduce只能處理批任務(wù)的局限,用戶需要做大量的工作才能搭建并讓機器學(xué)習(xí)系統(tǒng)運轉(zhuǎn)起來,而Myrrix重寫 了Mahout,解決了所有老問題。如果Mahout還有藥可救,Cloudera就不會收購Myrrix。Oryx差不多有90%的代碼都來自 Myrrix,也有一些代碼來自Cloudera”O(jiān)wen說道。
人人都能使用的開源推薦引擎?
Oryx的定位不是機器學(xué)習(xí)算法的程序庫,Owen關(guān)注的重點有四個:回歸、分類、集群和協(xié)作式過濾(也就是推薦)。其中推薦系統(tǒng)非常熱門,Owen正在與幾個Cloudera的客戶合作,幫他們使用Oryx部署推薦系統(tǒng)。
將Oryx打造成開發(fā)推薦系統(tǒng)的標(biāo)準(zhǔn)化工具的做法將使這個項目贏得極大關(guān)注,因為推薦系統(tǒng)幾乎已經(jīng)成了主流網(wǎng)站的標(biāo)配,無論是電商還是內(nèi)容網(wǎng)站都需要推薦系統(tǒng)提高網(wǎng)站的用戶體驗和轉(zhuǎn)化率。但是推薦引擎技術(shù)目前面臨的最大問題就是缺乏標(biāo)準(zhǔn)和開源工具。
致力于推薦技術(shù)標(biāo)準(zhǔn)化的公司不僅是Oryx一家,另外一家云計算創(chuàng)業(yè)公司Mortar Data也在積極推動用戶推薦引擎技術(shù)的開發(fā),并展現(xiàn)其開源推薦框架的優(yōu)點。其他一些公司注入Expect Labs雖然沒有開源,但試圖通過人工智能API接口實現(xiàn)推薦系統(tǒng)的自動化。
目前還不是一個產(chǎn)品
Owen認(rèn)為Cloudera的所有客戶(以及絕大多數(shù)的Hadoop用戶)最終都想要部署運營型機器分析系統(tǒng)——不僅僅是推薦,Oryx將來有可能成為實現(xiàn)工具,但目前Oryx還只是一個實驗性項目。
目前Owen還在花費大量時間擔(dān)當(dāng)Apache Spark目的貢獻(xiàn)者,他想重寫Oryx,將Spark而不是MapReduce作為主要的處理框架,因為Spark已經(jīng)成為下一代大數(shù)據(jù)應(yīng)用的熱門技術(shù)。由于性能 和速度優(yōu)于MapReduce,且更加容易使用,Spark目前已經(jīng)擁有一個龐大的用戶和貢獻(xiàn)者社區(qū)。這意味著Spark更加符合下一代低延遲、實時處 理、迭代計算的大數(shù)據(jù)應(yīng)用的要求,包括基于Oryx開發(fā)的實時機器學(xué)習(xí)系統(tǒng)。
介紹內(nèi)容來自IT經(jīng)理網(wǎng)
