エージェントとハイブリッドモデル史（時系列）

このページは、agent-hybrid-model/ 配下にある各モデルの歴史的背景を、できるだけやさしい言葉で整理するためのノートです。../history.md と同じく、細かな年表の厳密さより、研究の流れと考え方の移り変わりをつかむことを優先しています。

強化学習とは、試行錯誤から報酬を最大化する方策を学ぶ枠組みです。ハイブリッドとは、生成モデル単体に頼らず、検索・ルール・既存システムを組み合わせる設計のイメージです。

全体の流れ（ざっくり）

エージェントとハイブリッド領域の流れは、次のように重なります。① 環境との相互作用としての意思決定（強化学習）が整理される。② モデル記憶だけに頼らず、検索で知識を接続する（RAG）。③ 外部ツールや API を呼び出して行動を拡張する。④ 複数ステップの計画と実行（エージェント）が主題になる。⑤ ログ・権限・監査など、システムとしての責任が前面に出る、という流れです。

各モデル章の見出し（強化学習〜エージェントとハイブリッド）は、対応する agent-hybrid-model/ 配下の索引（index.md）へリンクしています。

1〜5 と各章の対応

① 相互作用と強化学習 → 「強化学習と逐次意思決定の展開」
② 検索と知識の外部化 → 「検索拡張と知識接続の展開」
③ ツールと API → 「ツール利用と外部 API の展開」
④ エージェントと計画 → 「エージェントとハイブリッド設計の展開」
⑤ システムとしての責任 → 「いまの見方（基盤モデルとの接続）」およびエージェント章に関連（⑤ 単独のサブフォルダは置いていない）

強化学習と逐次意思決定の展開

ざっくりいうと：一発の分類ではなく、手を打ち続ける問題に対し、試しながら方策を改善する枠組みです。ゲームやロボットの話題でよく知られます。

目安の年代：長い研究系譜があり、深層学習と組み合わせた方策学習も広がりました。Richard Sutton と Andrew Barto の教科書的整理で知られます。

何をしたかったか：状態が変わり、次の行動が将来の報酬に影響する状況で、最適に近い行動を学びたい、という狙いです。

どこでつまずいたか：シミュレーションと現実の差、安全制約、報酬設計の難しさが論点になります。

検索拡張と知識接続の展開

ざっくりいうと：**検索拡張生成（RAG）**は、まず必要な情報を検索してから答えを生成する方式で、モデル単体の記憶だけに頼らない代表例です。

目安の年代：大規模言語モデルの実務利用とともに、2020 年代に設計パターンとして定着しつつあります。

何をしたかったか：最新情報や社内文書など、学習時にない知識を、検索で補うことです。

どこでつまずいたか：検索品質、引用の正しさ、データ漏えい対策、評価設計がボトルネックになります。

ツール利用と外部 API の展開

ざっくりいうと：計算、データベース照会、予約、コード実行など、外部システムを呼び出すことで、モデルの能力を拡張します。

目安の年代：チャット製品や開発者向け API に組み込みが進み、2020 年代に実務で一般的になりました。

何をしたかったか：言語だけで完結しない仕事を、安全な経路で自動化したい、という動機です。

どこでつまずいたか：権限、誤呼び出し、レート制限、監査ログの設計が重要です。

エージェントとハイブリッド設計の展開

ざっくりいうと：複数ステップの計画、ツールの連鎖、人の承認を挟む手続きなど、システム全体として設計するのが主役になります。

目安の年代：2020 年代に「エージェント」という語が製品文脈でも広く使われるようになりました。

何をしたかったか：精度だけでなく、安全性、説明のしやすさ、コスト、障害時の切り分け、**だれがどこまで触っていいか（権限）**を満たすことです。

どこでつまずいたか：単一モデルの評価だけでは足りず、ログ、再現性、人間監督の設計が必要になります。

いまの見方（基盤モデルとの接続）

基盤モデルが強いほど、外側の検索・ルール・ツールとの組み合わせが、実務の主戦場になりやすいです。ルールベースや古典機械学習も、ここでは「部品」として再利用されます。