详解：递归神经网络和LSTM网络那些事儿(2)

发布时间：2018-04-15 04:00 所属栏目：15 来源：李佳惠

导读：当梯度的值太小并且模型停止学习或因此而过长时，我们会谈到“消失梯度”。这是20世纪90年代的一个主要问题，比梯度爆炸更难以解决。幸运的是，它是通过Sepp Hochreiter和Juergen Schmidhuber提出的LSTM概念解决的

　　当梯度的值太小并且模型停止学习或因此而过长时，我们会谈到“消失梯度”。这是20世纪90年代的一个主要问题，比梯度爆炸更难以解决。幸运的是，它是通过Sepp Hochreiter和Juergen Schmidhuber提出的LSTM概念解决的，我们现在将讨论这个问题。

　　长短期记忆网络

　　长期短期记忆网络(LSTM)是递归神经网络的延伸，其基本上扩展了它们的记忆。因此，它非常适合从中间有很长时间滞后的重要经历中学习。

　　LSTM的单元被用作一个RNN层的构建单元，该RNN层通常被称为LSTM网络。

　　LSTM使RNN能够长时间记住他们的输入。这是因为LSTM将他们的信息包含在内存中，这很像计算机的内存，因为LSTM可以从内存读取、写入和删除信息。

　　这个内存可以被看作一个门控单元，门控意味着单元决定是否存储或删除信息(例如它是否打开门)，这取决于它赋予信息的重要性。重要性的分配发生在权重上，这也是算法学习到的。这仅仅意味着它随着时间的推移学习哪些信息是重要的，哪些不重要。

　　在RNN中，有三个门：输入、忘记和输出门。这些门决定是否让新的输入(输入门)，删除信息，因为它不重要(忘记门)或让它在当前时间步(输出门)影响输出。你可以看到一个RNN的例子，下面有三个门：

　　详解：递归神经网络和LSTM网络那些事儿

　　LSTM中的门是模拟的，采用S形的形式，意思是它们的范围从0到1，它们是模拟的，这使得它们可以反向传播。

　　消失梯度的问题可以通过LSTM来解决，因为它可以保持梯度足够陡峭，因此训练相对较短，准确度较高。

　　总结

　　现在你已经对循环神经网络的工作原理有了正确的理解，这使你可以决定是否适用于给定的机器学习问题。

　　具体而言，你已经了解了前馈神经网络与RNN之间的区别，如何使用递归神经网络，反向传播和反向传播时间工作，RNN的主要问题是什么以及LSTM如何工作。

（编辑：ASP站长网）