提升12倍!香港浸会大学与MassGrid发布低带宽高效AI训练新算法(2)
为验证相比对收敛速度没有影响,通过训练ResNet 来进行对比,实验结果如图2所示。 △ 图2 从Top-k算法中选择k个梯度进行模型更新的收敛结果 gTopKAllReduce:gTop-k稀疏化的高效AllReduce算法 从表1可以看到AllGather集合对从不规则索引进行AllReduce操作效率很低,特别是P对通信性能的影响。而新提出的有效算法的主要目的是减轻变量P对通信开销的影响。因为最终只需要选择k个值对模型进行更新,所以在通信过程中,每次只需要传输k个非0值。 利用树状结构进行两两通信,每次只传输k个非0值,而接收者则会有2k个值,为下次传输也只传输k个值,接收者从2k个值中再选出k个值传递给下一个接收者。由于两两通信是可以同时进行,因此对于P个节点,只需要logP轮通信,一个8节点的示例如图3所示。 由图3可以看出,第1个节点在每一轮通信中都会接收另一个节点的k个非0元素,在最后一轮通信后,第1个节点则选出了k个非0元素然后广播给其他节点,所以整体的通信开销为:2αlogP + 4kβlogP。当机器规模P变大时,gTop-k还能维持较高的扩展性。算法伪代码为图4所示。 △ 图3 对8个节点,共需要3轮通信,每轮通信只传输k个非0值 △ 图4 gTopKAllReduce算法伪代码 实验结果 香港浸会大学异构计算实验室与MassGrid的研究人员在32台矿机环境上进行实验,每台矿机使用一个Nvidia P102-100显卡。 首先验证gTop-k S-SGD的收敛性。之后,对三种S-SGD算法(即基于稠密梯度的S-SGD,Top-k S-SGD和gTop-k S-SGD)的训练效率进行了比较。 实验具体硬件配置如表II所示 用于实验的神经网络配置如表III所示 gTop-k的收敛性能 总体来看,在不同数据集上三种不同类型的DNN的收敛结果表明研究人员提出的gTop-k S-SGD在训练期间不会损坏模型性能。 △ 图5 gTop-k S-SGD收敛性能 gTop-k的扩展性能 与S-SGD和Top-k S-SGD相比,在32个计算节点的集群环境上,gTop-k S-SGD比S-SGD快6.7倍,比Top-k S-SGD平均快1.4倍。不同的模型和不同节点数加速比如图6和表IV所示。 △ 图6不同节点数的扩展效率对比 △ 表7不同模型的扩展效率对比 局部稀疏化时间(tcompr.)和通信时间(tcommu.)。结果如图11所示。 一方面,在VGG-16和AlexNet型号的时间细分中通信开销远大于计算。因为VGG-16和AlexNet有三个完全连接的层,具有大量参数,而计算速度相对较快。这些也反映出即使使用gTop-k稀疏化,图6中S-SGD的缩放效率也很低。 另一方面,通信和稀疏化的时间远小于使用ResNet20和ResNet-50计算的时间,这表明通信计算比率低,因此即使在低带宽网络上,扩展效率也可高达80%。 此外,应注意梯度稀疏化所用的时间是与VGG-16和AlexNet型号的计算时间相当。主要原因是GPU上的Top-k选择效率低下,并且在SIMD架构上高度并行化可能并非易事。研究人员将此作为未来的优化方向。 实验总结 分布式同步随机梯度下降(S-SGD)已经广泛用于训练大规模深度神经网络(DNN),但是它通常需要计算工作者(例如,GPU)之间非常高的通信带宽以迭代交换梯度。 最近,已经提出了Top-k稀疏化技术来减少工人之间要交换的数据量。Top-k稀疏化可以将大部分梯度归零,而不会影响模型收敛。 通过对不同DNN的广泛实验,这一研究验证了gTop-k S-SGD与S-SGD具有几乎一致的收敛性能,并且在泛化性能上只有轻微的降级。 在扩展效率方面,研究人员在具有32个GPU机器的集群上(MassGrid矿机集群)评估gTop-k,这些机器与1 Gbps以太网互连。 实验结果表明,该方法比S-SGD实现了2.7-12倍的缩放效率,比现有的Top-k S-SGD提高了1.1-1.7倍。 传送门 论文原文链接:https://arxiv.org/abs/1901.04359 更多关于MassGrid的应用场景请查询:www.massgrid.com
(编辑:ASP站长网) |