LSTM是什么?(lstm神经网络)

长短期记忆(LSTM)是一种用于解决递归神经网络中梯度消失问题的方法,于 1997 年被提出。

LSTM 单元使用具有自连接的线性单元,其恒定权重为 1.0。这使得流入该自循环单元的值(前向传递)或梯度(后向传递)可以无限期地保留,以便在最需要的时间可以准确地检索该值或梯度。这种自我循环单元,即存储单元,提供了一种可以存储过去数十个时间步长的信息的存储器。这对于许多任务来说非常强大,例如对于文本数据,LSTM 单元可以存储前一段中包含的信息并将该信息应用于当前段落中的句子。

此外,深度网络中的一个常见问题是“梯度消失”问题,即梯度逐层变得越来越小,直至太小而无法影响最深层。借助 LSTM 中的存储单元,我们拥有连续的梯度流(误差保持其值),从而消除了梯度消失问题,并能够从数百个时间步长的序列中进行学习。

另一个门通过将存储单元的输出乘以 0(无输出)和 1(保留输出)之间的数字来操纵存储单元的输出。如果多个记忆相互竞争,这个门可能会很有用。

LSTM 单元的连接乍一看可能有点复杂,您需要一些时间来理解它。然而,如果将所有部分隔离开来,会发现该结构本质上与普通循环神经网络相同,其中输入和循环权重流向所有门,而这些门又反过来连接到自循环存储单元。

为了更深入地研究 LSTM 并理解整个架构,建议阅读LSTM:A Search Space Odyssey原始 LSTM 论文

0
分享到:
没有账号? 忘记密码?