Elman ネットと Jordan ネットとは

このページは、Elman ネットと Jordan ネット を、初学者向けに短く整理するノートです。時系列の背景は 単純リカレントと誤差逆伝播史 を参照してください。

1986〜1989 年代、Jeffrey Elman の Elman ネット(1988 年ごろが代表)や Michael Jordan の Jordan ネットは、単純リカレントの フィードバックの配線 を変えたモデルとして知られます。言語のような 離散系列 で、内部表現が次のステップへどう渡るかをはっきりさせた、という意味でよく教科書に登場します。

ざっくりいうと

  • Elman ネット:隠れ状態のコピーを コンテキスト層 として次ステップに戻す構成が典型。
  • Jordan ネット出力 を次ステップにフィードバックする構成が典型。
  • 共通点:どちらも「さっきの結果を次に使う」という リカレント の発想。
  • 違いの感覚:文脈を隠れ層側で持つか、出力側で持つか、という配線の差。

Elman ネットと Jordan ネットで何をしているか

たとえば文字や単語の系列から次の記号を予測する問題では、Elman 型は 隠れ状態の履歴 をコンテキストとして明示し、Jordan 型は 直前の出力 を強く次に効かせます。どちらも単純 RNN 族であり、学習は当時は BPTT 前後 の手続きと組み合わせて議論されました。

  1. 系列をステップに分け、各ステップの入力を用意する。
  2. Elman なら隠れ状態のコピー、Jordan なら出力をフィードバック経路に入れる。
  3. 各ステップで予測(次記号など)を計算する。
  4. 誤差から接続重みを更新する。
  5. 短い系列では文脈のモデル化に成功例が報告される。

強みと限界(短く)

強み

  • リカレントの 具体的な配線例 として学習しやすい。
  • 言語・認知モデリングの文脈で、文脈表現 の議論と結びついた。

限界

  • 本質的には単純 RNN 族のため、長い依存 では勾配消失の壁は残る。
  • 現代の大規模言語モデルでは、Transformer が主役になった。

関連