このページは、LSTM とゲーティング を、初学者向けに短く整理するノートです。時系列の背景は リカレントと系列モデル史 を参照してください。
1990〜2000 年代、LSTM(Long Short-Term Memory) が、入力・出力・忘却の ゲート でセル状態の更新を制御し、長距離依存の学習を改善しようとしました。音声や手書き系列など、文脈が効くタスク で RNN 系が実務の選択肢に入り、隠れ状態とセル状態という語彙が共有されるようになりました。
ざっくりいうと
- LSTM:セル状態 に長期記憶を載せ、ゲートで書き込み・読み出し・忘却を制御する RNN の改良型。
- ゲート:0〜1 に近い値で、どの情報を通すかを学習する仕組み(シグモイドなど)。
- 勾配消失への対処:恒久的な誤差カルーセル(CEC)の発想から、実用的な深い系列学習へ。
- 双方向の布石:のちの BiRNN やエンコーダ設計につながる基盤。
LSTM とゲーティングで何をしているか
たとえば文の感情分類では、否定や接続詞のように 遠い単語 がラベルに効くことがあります。単純 RNN では勾配が弱くなりがちな依存を、LSTM のゲートが 保持・忘却 することで学習しやすくする、という理解ができます。
- 各時刻で入力ゲート・忘却ゲート・出力ゲートを計算する。
- セル状態 を更新し、長期に残す情報と捨てる情報を分ける。
- 隠れ状態を出力し、分類ヘッドや次時刻の入力へつなぐ。
- BPTT でゲートと重みを更新する。
- 必要に応じて 双方向 や深いスタックを重ねる。
強みと限界(短く)
強み
- 2010 年代まで、長い文脈 を扱う深層学習の主力の一つだった。
- 音声・テキストなど多様な系列タスクで 再現性のある実装 が蓄積された。
限界
- パラメータと計算が単純 RNN より重い。
- 非常に長い系列や大規模並列学習では、後の Transformer に押される場面が増えた。