EasyML圖形化機器學習系統(tǒng)
EasyML(Easy Machine Learning)是一個簡單機器學習系統(tǒng)。
在該系統(tǒng)中,一個學習任務被構(gòu)造為一個有向非循環(huán)圖(DAG/directed acyclic graph),每個節(jié)點表征一步操作(即機器學習算法),每一條邊表征從一個節(jié)點到后一個即節(jié)點的數(shù)據(jù)流。
任務可被人工定義,或根據(jù)現(xiàn)有任務/模板進行克隆。在把任務提交到云端之后,每個節(jié)點將根據(jù) DAG 自動執(zhí)行。圖形用戶界面被實現(xiàn),從而可使用戶以拖拉的方式創(chuàng)建、配置、提交和監(jiān)督一項任務。
系統(tǒng)包含三個主要組件:
不僅能實現(xiàn)流行的機器學習算法,也能實現(xiàn)數(shù)據(jù)預處理/后處理、數(shù)據(jù)格式轉(zhuǎn)變、特征生成、表現(xiàn)評估等算法。這些算法主要是基于 Spark 實現(xiàn)的。
能讓用戶以拖放的方式創(chuàng)造、安裝、提交、監(jiān)控、共享他們的機器學習流程。機器學習庫中所有的算法都可在此開發(fā)環(huán)境系統(tǒng)中獲得并安裝,它們是構(gòu)建機器學習任務的主要基礎。
該服務基于開源的 Hadoop 和 Spark 大數(shù)據(jù)平臺建立,在 Docker 上組織了服務器集群。從 GUI 上接受一個 DAG 任務之后,在所有的獨立數(shù)據(jù)源準備好時,每個節(jié)點將會自動安排運行。對應節(jié)點的算法將會依據(jù)實現(xiàn)在 Linux、Spark 或者 Map-Reduce\cite 上自動安排運行。
