LSTM とゲーティングとは

このページは、LSTM とゲーティング を、初学者向けに短く整理するノートです。時系列の背景は リカレントと系列モデル史 を参照してください。

1990〜2000 年代、LSTM(Long Short-Term Memory) が、入力・出力・忘却の ゲート でセル状態の更新を制御し、長距離依存の学習を改善しようとしました。音声や手書き系列など、文脈が効くタスク で RNN 系が実務の選択肢に入り、隠れ状態とセル状態という語彙が共有されるようになりました。

ざっくりいうと

  • LSTMセル状態 に長期記憶を載せ、ゲートで書き込み・読み出し・忘却を制御する RNN の改良型。
  • ゲート:0〜1 に近い値で、どの情報を通すかを学習する仕組み(シグモイドなど)。
  • 勾配消失への対処:恒久的な誤差カルーセル(CEC)の発想から、実用的な深い系列学習へ。
  • 双方向の布石:のちの BiRNN やエンコーダ設計につながる基盤。

LSTM とゲーティングで何をしているか

たとえば文の感情分類では、否定や接続詞のように 遠い単語 がラベルに効くことがあります。単純 RNN では勾配が弱くなりがちな依存を、LSTM のゲートが 保持・忘却 することで学習しやすくする、という理解ができます。

  1. 各時刻で入力ゲート・忘却ゲート・出力ゲートを計算する。
  2. セル状態 を更新し、長期に残す情報と捨てる情報を分ける。
  3. 隠れ状態を出力し、分類ヘッドや次時刻の入力へつなぐ。
  4. BPTT でゲートと重みを更新する。
  5. 必要に応じて 双方向 や深いスタックを重ねる。

強みと限界(短く)

強み

  • 2010 年代まで、長い文脈 を扱う深層学習の主力の一つだった。
  • 音声・テキストなど多様な系列タスクで 再現性のある実装 が蓄積された。

限界

  • パラメータと計算が単純 RNN より重い。
  • 非常に長い系列や大規模並列学習では、後の Transformer に押される場面が増えた。

関連