详解梯度下降算法 正确训练模型利刃!(2)
它的优点是它的计算效率高,它产生一个稳定的误差梯度和稳定的收敛。批梯度下降具有的缺点是,稳定的误差梯度有时可能导致收敛状态不是模型能达到的最佳状态。它还要求整个训练数据集存储在内存中并可供算法使用。 随机梯度下降 相反,随机梯度下降(SGD)对于数据集内的每个训练样例都是这样。这意味着它会逐个更示例个训练示例的参数。这可能会使SGD比批量渐变下降更快,具体取决于问题。一个好处是频繁的更新使我们有一个相当详细的改进速度。 问题在于频繁更新的批处理梯度下降方法在计算上更加昂贵。这些更新的频率也会导致噪音梯度,这可能会导致错误率跳跃,而不是缓慢下降。 迷你批次梯度下降 小批量梯度下降法是一种先进的方法,因为它是SGD和批次梯度下降概念的组合。它只是将训练数据集分成小批量,并为这些批次中的每个批次执行更新。因此它可以在随机梯度下降的稳健性和批梯度下降的效率之间建立平衡。 常见的小批量大小范围在50到256之间,但是对于任何其他机器学习技术而言,没有明确的规则,因为它们可以针对不同的应用而变化。请注意,它是在训练神经网络时的go-to算法,它是深度学习中最常见的梯度下降类型。 总结 在这篇文章中,你学到了很多关于梯度下降的知识。你现在知道它的基本术语,并且了解该算法如何在幕后工作。此外,你了解了为什么学习率是最重要的超参数,以及如何检查算法是否能够使你正确训练你的模型。 最后,你了解了三种最常见的梯度下降类型及其优缺点。这些知识使你能够正确地训练模型。 (编辑:ASP站长网) |