让神经网络训练速度加快4倍!谷歌大脑团队提出“数据回送”算法(3)
尽管人们可能担心重复使用数据可能会损害最终的表现性能,但实验中没有观察到任何类似情况。为了进一步证明数据回送不会降低解决方案的质量,作者在 LM1B 上使用 Transformer 进行了实验,在 ImageNet 上使用 Resnet-50 进行了实验,在固定新样本数量下找到最佳可实现性能。图 8 显示了在每个实验的训练过程中,数据回送在任何一点上都达到了最佳的性能。所有的数据回送变体都至少实现了与两个任务的基线相同的性能。 图 8 训练中的独立试验达到了最佳效果 4 、结论数据回送是提高硬件利用率的一种简单策略。尽管先前研究人员担心重复数据的 SGD 更新是无用的,甚至是有害的。但是对于实验中的每一项任务,至少有一种数据回送方法能够减少需要从磁盘读取的样本数量。 数据回送是优化训练流程或额外上游数据处理的有效替代方案。尽管训练加速取决于模型结构、数据集、批尺寸以及重复数据的 shuffle 程度,但将回送因子设置为上下游处理时间的比率可以最大限度地提高潜在的加速速度,并在实验中取得了良好的效果。随着专业加速器(如 GPU 和 TPU)的改进速度继续超过通用计算的改进速度,数据回送以及类似的策略将成为神经网络训练工具包中越来越重要的组成部分。
(编辑:ASP站长网) |