Volcano高性能任務(wù)調(diào)度引擎
Volcano 是基于 Kubernetes 的批處理系統(tǒng),源自于華為云 AI 容器。Volcano 方便 AI、大數(shù)據(jù)、基因、渲染等諸多行業(yè)通用計(jì)算框架接入,提供高性能任務(wù)調(diào)度引擎,高性能異構(gòu)芯片管理,高性能任務(wù)運(yùn)行管理等能力。
整體架構(gòu)
Volcano 提供一整套目前 K8S 在批量和彈性工作負(fù)載處理中缺失的機(jī)制,包括:
- 機(jī)器學(xué)習(xí)/深度學(xué)習(xí)
- 生物信息學(xué)/基因組學(xué)
- 其他“大數(shù)據(jù)”應(yīng)用
這些類型的應(yīng)用程序通常運(yùn)行在Volcano集成的Tensorflow,Spark,PyTorch,MPI等通用域框架上。
Volcano為Kubernetes添加的機(jī)制和功能的一些例子:
- 作業(yè)管理的擴(kuò)展和改進(jìn),如:
- Multi-pod 作業(yè)
- 生命周期管理擴(kuò)展,包括掛起、恢復(fù)和重啟
- 提升錯(cuò)誤處理
- 作業(yè)的索引
- 任務(wù)依賴
- 調(diào)度擴(kuò)展
- 聯(lián)合調(diào)度
- 公平調(diào)度
- 隊(duì)列調(diào)度
- 搶先和收回
- 預(yù)訂和回填
- 基于拓?fù)溥壿嫷恼{(diào)度
- 運(yùn)行時(shí)擴(kuò)展
- 支持Singularity等專用容器運(yùn)行時(shí),具有GPU加速器擴(kuò)展和增強(qiáng)的安全功能
- 其他
- 數(shù)據(jù)局部感知和智能調(diào)度
- 優(yōu)化數(shù)據(jù)吞吐量,往返延遲等
Volcano建立在使用多個(gè)系統(tǒng)和平臺(tái)大規(guī)模運(yùn)行各種高性能工作負(fù)載的十五年經(jīng)驗(yàn)之上,并結(jié)合了開(kāi)源社區(qū)的最佳創(chuàng)意和實(shí)踐。
評(píng)論
圖片
表情
