EDL彈性深度學(xué)習(xí)框架
EDL 是一個(gè)彈性深度學(xué)習(xí)框架,其包含一個(gè) KubernetesController、PaddlePaddle auto-scaler(可以根據(jù)集群中的空閑硬件資源改變分布式任務(wù)進(jìn)程的數(shù)目)以及一個(gè)新的容錯(cuò)計(jì)算架構(gòu)。
該項(xiàng)目致力于解決深度學(xué)習(xí)任務(wù)彈性的在資源通常不足的生產(chǎn)環(huán)境集群執(zhí)行,盡可能早的幫助深度學(xué)習(xí)開發(fā)者分析出潛在算法問題,同時(shí),F(xiàn)luid 通過 API 與 Kubernetes 交互,以理解全局集群狀態(tài),并據(jù)此調(diào)整不同任務(wù)的進(jìn)程數(shù)量。
評(píng)論
圖片
表情
