想知道深度学习优化算法的原理?点我!快点我(2)
RMS Prop是指均方根传播,与动量类似,它是一种抑制y轴运动的技术。前面的示例有助于理解其原理。为了更好地理解,这里将y轴表示为偏置b,把x轴表示为权重W。 凭直觉而言,当用一个大数除以另一个数时,结果会变得很小。该例中,第一个大数为db,第二大数为加权平均db²。引入了两个新的变量Sdb和SdW,跟踪db²和dW²的加权平均。db和Sdb相除得到一个更小的值,它抑制了y轴的运动。引入Ⲉ避免出现除以零的错误。对于 x轴上W的值的更新也有类似的直觉。 值得注意的是,这里以y轴为偏置b, x轴为权值W,以便更好地理解和可视化参数的更新。也可用类似的方法消除由任何偏置b(b1, b2,…,bn)或权值W(W1, W2,…,Wn)或两者引起的任何波动。同样,由于只有参数更新方法发生了更改,也可使用小批量处理方法和均方根优化器(RMS optimizer)。 以上给出了使用RMS Prop作为优化算法时的基本策略。 AdaM AdaM是指适应性动量。它使用单一方法结合动量和RMS prop,是一种强大而快速的优化器。也可利用误差修正方法解决加权平均计算中的冷启动问题(即加权平均值的前几个值与实际值相差太远)。V值包含动量逻辑,而S值包含RMS prop逻辑。 值得注意的是,计算中使用2个不同的β值。β1用于计算相关动量,而β2用于计算相关RMS prop。同样,由于只有参数更新方法发生了更改,所以也可使用小批量处理方法和AdaM 优化器。 以上给出了使用AdaM作为优化算法时的基本策略。 性能比较 图1 图2 损失曲面的轮廓及不同优化算法的时间演化
(编辑:ASP站长网) |