HorovodTensorFlow 分布式深度學(xué)習(xí)框架
Horovod 是 Uber 開源的針對(duì) TensorFlow 的分布式深度學(xué)習(xí)框架,旨在使分布式深度學(xué)習(xí)更快速,更易于使用。
Horovod 吸取了 Facebook 的 Training ImageNet in 1 Hour(一小時(shí)訓(xùn)練 ImageNet) 論文與百度 Ring Allreduce 的優(yōu)點(diǎn),為用戶實(shí)現(xiàn)分布式訓(xùn)練提供幫助。該項(xiàng)目主要是想能夠輕松采用單個(gè) GPU TensorFlow 程序,同時(shí)也能更快地在多個(gè) GPU 上成功地對(duì)其進(jìn)行訓(xùn)練。使用 Horovod 我們可以不需要再去擔(dān)心或?qū)W習(xí)很多東西,如 tf.Server()、tf.ClusterSpec()、tf.train.SyncReplicasOptimizer()、tf.train.replicas_device_setter()等等。
除了易于使用,Horovod 的速度也很快。下圖為 Inception V3 和 ResNet-101 TensorFlow 模型在 25GbE TCP 上使用不同數(shù)量的 NVIDIA Pascal GPU 時(shí),使用標(biāo)準(zhǔn)分布式 TensorFlow 和 Horovod 運(yùn)行分布式訓(xùn)練工作每秒處理的圖像數(shù)量對(duì)比。

評(píng)論
圖片
表情
