As emerging deep neural network (DNN) models continue to grow in size, using large GPU clusters to train DNNs is becoming an essential requirement to achieving acceptable training times. In this paper, we consider the case where future increases in cluster size will cause the global batch size that can be used to train models to reach a fundamental limit: beyond a certain point, larger global batch sizes cause sample efficiency to degrade, increasing overall time to accuracy. As a result, to achieve further improvements in training performance, we must instead consider "strong scaling" strategies that hold the global batch size constant and allocate smaller batches to each GPU. Unfortunately, this makes it significantly more difficult to use cluster resources efficiently. We present DeepPool, a system that addresses this efficiency challenge through two key ideas. First, burst parallelism allocates large numbers of GPUs to foreground jobs in bursts to exploit the unevenness in parallelism across layers. Second, GPU multiplexing prioritizes throughput for foreground training jobs, while packing in background training jobs to reclaim underutilized GPU resources, thereby improving cluster-wide utilization. Together, these two ideas enable DeepPool to deliver a 2.2 - 2.4x improvement in total cluster throughput over standard data parallelism with a single task when the cluster scale is large.


翻译:随着新兴的深层神经网络(DNN)模式继续扩大规模,使用大型GPU集群来培训DNN(DNN)模式正在成为实现可接受的培训时间的一个基本要求。在本文件中,我们考虑了这样的情况,即未来集群规模的增加将会导致全球批量规模的扩大,从而能够使模型培训达到一个根本的极限:超过某一点,更大的全球批量规模导致取样效率下降,增加总体时间的准确性。因此,为了进一步改善培训业绩,我们必须考虑“大幅扩大”战略,使全球批量不变,并将较小的批量分配到每个GPU。不幸的是,这极大地增加了集资源的使用难度。我们介绍了Deep Pool,这是一个通过两个关键想法应对这一效率挑战的系统。首先,爆发平行主义分配了大量的GPU到地面工作,以便利用各层平行的不均势。 其次,GPUPU将地面培训的吞吐量排在地面培训工作中,同时将背景培训工作包装成回收利用不到的GPU资源,从而改进整个集群的利用情况。这两个想法使得GPO(GPOL)能够同时完成一个2.4级的平行任务。

0
下载
关闭预览

相关内容

【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
159+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【推荐】手把手深度学习模型部署指南
机器学习研究会
5+阅读 · 2018年1月23日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
31+阅读 · 2020年9月21日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【推荐】手把手深度学习模型部署指南
机器学习研究会
5+阅读 · 2018年1月23日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员