LSTM 原作者带队,一个强大的算法模型杀回来了 1

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」

时间拉回 2019 年,有「计算机界诺贝尔奖」之称图灵奖获得者公布,深度学习三巨头:Yoshua Bengio、Geoffrey Hinton、Yann LeCun 众望所归。

图灵奖为何不颁给LSTM之父Jürgen Schmidhuber?作为AI界特立独行的人,Schmidhuber与深度学习三巨头有过口水战,并现场对质GAN的提出者,可谓得罪了一圈人。

20 世纪 90 年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM 经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,以可并行自注意力为核心 Transformer 横空出世之后,LSTM 自身所存在的局限性使其风光不再。

当人们都以为 Transformer 在语言模型领域稳坐江山的时候,LSTM 又杀回来了 —— 这次,是以 xLSTM 的身份。

5 月 8 日,LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。

LSTM:「这次重生,我要夺回 Transformer 拿走的一切。」 今天,我们就来 说说 前任 - LSTM

(by Michael Phi)

各位[大侠],欢迎来到 LSTM 的世界。LSTM,全称 Long Short-Term Memory,是一种特殊的循环神经网络(RNN),旨在解决 RNN 中的长期依赖问题。它在时间序列预测、自然语言处理等领域有着广泛的应用。接下去我们从以下几个方面展开:

LSTM 的定义和基本概念
LSTM 的核心原理
LSTM 的实现
LSTM 的实际应用案例

  1. LSTM 的定义和基本概念
    1.1 基本定义
    LSTM 是一种改进的循环神经网络(RNN),专门用于解决传统 RNN 中的长期依赖问题。RNN 在处理序列数据时,能够利用前面的信息,但是当序列过长时,信息会逐渐丢失。而 LSTM 通过引入记忆单元(Memory Cell)和门控机制(Gate Mechanisms),有效地解决了这一问题。

1.2 相关术语解释
记忆单元(Memory Cell):LSTM 的核心组件,用于存储长期信息。
输入门(Input Gate):控制哪些新的信息需要加入到记忆单元中。
遗忘门(Forget Gate):决定哪些信息需要从记忆单元中删除。
输出门(Output Gate):决定记忆单元的哪部分输出到下一个时间步。

1.3 重要性和应用场景
LSTM 在许多领域有广泛的应用,包括但不限于:

自然语言处理(NLP):如文本生成、机器翻译和语音识别。
时间序列预测:如股市预测和气象预报。
机器人控制:处理连续的传感器数据,进行运动规划。
LSTM 的设计使其能够有效地捕捉和利用长期依赖关系,显著提高了序列数据处理的性能和效果。

  1. LSTM 的核心原理
    2.1 数学表达式
    接下来我们看一下 LSTM 的数学表达式。LSTM 包含三个门:输入门、遗忘门和输出门。每个门都有自己的权重和偏置,用于控制信息的流动。

2.2 直观解释
输入门:决定当前输入信息中,哪些部分需要加入到记忆单元中。
遗忘门:决定当前记忆单元中的哪些信息需要丢弃。
输出门:决定记忆单元中的哪些信息需要输出到下一个时间步。
2.3 关键概念图示
让我们通过一个图示来直观地理解 LSTM 的工作原理。下图展示了 LSTM 单元的内部结构:

在图中可以看到,输入门、遗忘门和输出门共同作用于记忆单元,控制信息的存储和传递。

通过这种门控机制,LSTM 能够有效地记住长时间跨度的信息,从而在处理序列数据时表现出色。