设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 站长资讯 > 动态 > 正文

详解:递归神经网络和LSTM网络那些事儿(2)

发布时间:2018-04-15 04:00 所属栏目:15 来源:李佳惠
导读:当梯度的值太小并且模型停止学习或因此而过长时,我们会谈到“消失梯度”。这是20世纪90年代的一个主要问题,比梯度爆炸更难以解决。幸运的是,它是通过Sepp Hochreiter和Juergen Schmidhuber提出的LSTM概念解决的

  当梯度的值太小并且模型停止学习或因此而过长时,我们会谈到“消失梯度”。这是20世纪90年代的一个主要问题,比梯度爆炸更难以解决。幸运的是,它是通过Sepp Hochreiter和Juergen Schmidhuber提出的LSTM概念解决的,我们现在将讨论这个问题。

  长短期记忆网络

  长期短期记忆网络(LSTM)是递归神经网络的延伸,其基本上扩展了它们的记忆。因此,它非常适合从中间有很长时间滞后的重要经历中学习。

  LSTM的单元被用作一个RNN层的构建单元,该RNN层通常被称为LSTM网络。

  LSTM使RNN能够长时间记住他们的输入。这是因为LSTM将他们的信息包含在内存中,这很像计算机的内存,因为LSTM可以从内存读取、写入和删除信息。

  这个内存可以被看作一个门控单元,门控意味着单元决定是否存储或删除信息(例如它是否打开门),这取决于它赋予信息的重要性。重要性的分配发生在权重上,这也是算法学习到的。这仅仅意味着它随着时间的推移学习哪些信息是重要的,哪些不重要。

  在RNN中,有三个门:输入、忘记和输出门。这些门决定是否让新的输入(输入门),删除信息,因为它不重要(忘记门)或让它在当前时间步(输出门)影响输出。你可以看到一个RNN的例子,下面有三个门:

  详解:递归神经网络和LSTM网络那些事儿

  LSTM中的门是模拟的,采用S形的形式,意思是它们的范围从0到1,它们是模拟的,这使得它们可以反向传播。

  消失梯度的问题可以通过LSTM来解决,因为它可以保持梯度足够陡峭,因此训练相对较短,准确度较高。

  总结

  现在你已经对循环神经网络的工作原理有了正确的理解,这使你可以决定是否适用于给定的机器学习问题。

  具体而言,你已经了解了前馈神经网络与RNN之间的区别,如何使用递归神经网络,反向传播和反向传播时间工作,RNN的主要问题是什么以及LSTM如何工作。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读