このページは、リカレントニューラルネットワーク(RNN) と 系列・文脈 の扱いが、研究と実務の中でどう積み上がってきたかを短く整理するノートです。年号は目安で、厳密な年表より 考え方の移り変わり をつかむことを優先しています。
1980〜1990年代:単純リカレントと誤差逆伝播
Elman ネット や Jordan ネット など、隠れ状態を 前の時刻から受け取る 単純なリカレント構造が、系列のモデル化に使われ始めました。
時間方向への誤差逆伝播(BPTT) により、可変長の系列を、多層ネットの延長として学習する道が開かれました。ただし長い系列では勾配が弱くなる 勾配消失 の課題も、この時代から知られていました。
1990〜2000年代:LSTM とゲーティング
LSTM(Long Short-Term Memory) が、入力・出力・忘却の ゲート で情報の保持と捨てを制御し、長距離依存の学習を改善しようとしました。
音声認識や手書き系列など、文脈が効くタスク で RNN 系が実務の選択肢に入りつつ、系列処理の標準的な語彙(隠れ状態、セル状態)が共有されました。
2000〜2010年代:双方向 RNN と seq2seq
双方向 RNN(BiRNN) は、過去と未来の両方の文脈を隠れ状態に取り込み、ラベル付けやエンコーディングに強くなりました。
seq2seq(系列から系列) と エンコーダ・デコーダ の枠組みが、機械翻訳など「入力系列→出力系列」の問題を統一的に扱えるようにしました。のちの 注意機構 への布石でもあります。
2010〜2017年代:GRU・深い RNN と応用のピーク
GRU など、LSTM より単純なゲーティング設計も広く使われました。深いスタック RNN、CTC による音声認識、ニューラル機械翻訳(NMT) など、RNN を中心とした応用が 2010 年代にピークを迎えます。
並列学習のしにくさや、非常に長い系列での限界は、次の Transformer 時代への動機にもなりました。
2017年代〜現在:Transformer への移行とハイブリッド
2017 年ごろの Transformer 以降、大規模言語モデルでは 自己注意 が主流になり、RNN は「必須」から 選択肢の一つ へと位置づけが変わりました。
一方で、ストリーミング音声、エッジ推論、状態空間モデル(SSM)との組み合わせなど、系列の順序を明示的に扱う設計 は研究・実務で続いています。
いまの論点
- 長文・大規模モデルでは Transformer 系が中心だが、レイテンシ・メモリ で RNN 系や SSM が再評価される場面
- 双方向 と 因果(左から右のみ) の使い分け(学習時と推論時の違い)
- RNN と CNN・Transformer の ハイブリッド(Conformer など)
- 系列データでの 評価設計(時系列分割、漏えい防止)