LSTM とゲーティングとは

このページは、LSTM とゲーティング を、初学者向けに短く整理するノートです。時系列の背景はリカレントと系列モデル史を参照してください。

1990〜2000 年代、LSTM（Long Short-Term Memory） が、入力・出力・忘却の ゲート でセル状態の更新を制御し、長距離依存の学習を改善しようとしました。音声や手書き系列など、文脈が効くタスク で RNN 系が実務の選択肢に入り、隠れ状態とセル状態という語彙が共有されるようになりました。

ざっくりいうと

LSTM：セル状態 に長期記憶を載せ、ゲートで書き込み・読み出し・忘却を制御する RNN の改良型。
ゲート：0〜1 に近い値で、どの情報を通すかを学習する仕組み（シグモイドなど）。
勾配消失への対処：恒久的な誤差カルーセル（CEC）の発想から、実用的な深い系列学習へ。
双方向の布石：のちの BiRNN やエンコーダ設計につながる基盤。

LSTM とゲーティングで何をしているか

たとえば文の感情分類では、否定や接続詞のように 遠い単語 がラベルに効くことがあります。単純 RNN では勾配が弱くなりがちな依存を、LSTM のゲートが 保持・忘却 することで学習しやすくする、という理解ができます。

各時刻で入力ゲート・忘却ゲート・出力ゲートを計算する。
セル状態 を更新し、長期に残す情報と捨てる情報を分ける。
隠れ状態を出力し、分類ヘッドや次時刻の入力へつなぐ。
BPTT でゲートと重みを更新する。
必要に応じて 双方向 や深いスタックを重ねる。

強みと限界（短く）

強み

2010 年代まで、長い文脈 を扱う深層学習の主力の一つだった。
音声・テキストなど多様な系列タスクで 再現性のある実装 が蓄積された。

限界

パラメータと計算が単純 RNN より重い。
非常に長い系列や大規模並列学習では、後の Transformer に押される場面が増えた。

LSTM とゲーティングとは

ざっくりいうと

LSTM とゲーティングで何をしているか

強みと限界（短く）

関連