リカレントと系列モデル（時系列）

このページは、リカレントニューラルネットワーク（RNN） と 系列・文脈 の扱いが、研究と実務の中でどう積み上がってきたかを短く整理するノートです。年号は目安で、厳密な年表より 考え方の移り変わり をつかむことを優先しています。

1980〜1990年代：単純リカレントと誤差逆伝播

Elman ネット や Jordan ネット など、隠れ状態を 前の時刻から受け取る 単純なリカレント構造が、系列のモデル化に使われ始めました。
時間方向への誤差逆伝播（BPTT） により、可変長の系列を、多層ネットの延長として学習する道が開かれました。ただし長い系列では勾配が弱くなる 勾配消失 の課題も、この時代から知られていました。

1990〜2000年代：LSTM とゲーティング

LSTM（Long Short-Term Memory） が、入力・出力・忘却の ゲート で情報の保持と捨てを制御し、長距離依存の学習を改善しようとしました。
音声認識や手書き系列など、文脈が効くタスク で RNN 系が実務の選択肢に入りつつ、系列処理の標準的な語彙（隠れ状態、セル状態）が共有されました。

2000〜2010年代：双方向 RNN と seq2seq

双方向 RNN（BiRNN） は、過去と未来の両方の文脈を隠れ状態に取り込み、ラベル付けやエンコーディングに強くなりました。
seq2seq（系列から系列） と エンコーダ・デコーダ の枠組みが、機械翻訳など「入力系列→出力系列」の問題を統一的に扱えるようにしました。のちの 注意機構 への布石でもあります。

2010〜2017年代：GRU・深い RNN と応用のピーク

GRU など、LSTM より単純なゲーティング設計も広く使われました。深いスタック RNN、CTC による音声認識、ニューラル機械翻訳（NMT） など、RNN を中心とした応用が 2010 年代にピークを迎えます。
並列学習のしにくさや、非常に長い系列での限界は、次の Transformer 時代への動機にもなりました。

2017年代〜現在：Transformer への移行とハイブリッド

2017 年ごろの Transformer 以降、大規模言語モデルでは 自己注意 が主流になり、RNN は「必須」から 選択肢の一つ へと位置づけが変わりました。
一方で、ストリーミング音声、エッジ推論、状態空間モデル（SSM）との組み合わせなど、系列の順序を明示的に扱う設計 は研究・実務で続いています。

いまの論点

長文・大規模モデルでは Transformer 系が中心だが、レイテンシ・メモリ で RNN 系や SSM が再評価される場面
双方向 と 因果（左から右のみ） の使い分け（学習時と推論時の違い）
RNN と CNN・Transformer の ハイブリッド（Conformer など）
系列データでの 評価設計（時系列分割、漏えい防止）