評価と汎化（時系列）

このページは、機械学習における 評価と汎化 の方法論が時代とともにどう整ってきたかを、classical-ml-model/ 配下の他テーマと同じ筆致で短く整理するノートです。年号は目安で、研究の流れと考え方の移り変わりをつかむことを優先しています。

汎化とは、学習に使っていないデータでも性能が落ちにくい性質のことです。過学習は、訓練データに合わせ込みすぎて未知データで性能が落ちる状態を指します。

1960〜1970年代：統計学に根ざす出発点

評価と汎化の考え方は、統計学の 標本誤差 や 推定の信頼性 といった概念から始まりました。バイアス（偏り）とバリアンス（ばらつき）のトレードオフは、この時期から「ある関数族で過去データを説明する」議論の中で意識されています。
機械学習という名称が広く使われる前で、回帰や分類の理論において、過剰適合（オーバーフィッティング）の素朴な姿が課題として挙げられていました。

未知データでの性能を見積もる方法として、交差検証（cross-validation）が体系化されました。Mervyn Stone と Seymour Geisser らの 1974〜1975 年ごろの論文は、k 分割や leave-one-out の発想を統計的に整理した代表例です。
データを 訓練・検証・テスト に分ける考え方が定着し、「学習データだけで自慢しない」評価設計が方法論として共有され始めます。

1980〜1990年代：統計学習理論と汎化境界

Vladimir Vapnik と Alexey Chervonenkis による VC 次元、Leslie Valiant の PAC 学習 が、汎化を 数学的に保証する道具 をもたらしました。「どれくらいデータがあれば、どの程度の精度を期待してよいか」を、モデルの複雑さと関連づけて議論できるようになります。
この理論的整理は、SVM の登場と相互に影響しながら、古典機械学習における汎化の中心的な語り口を作りました。

1990〜2000年代：正則化と指標選定の標準化

過学習を抑える側の方法論として、L2 正則化（リッジ） と L1 正則化（ラッソ） が線形モデルの標準的な道具になりました。反復学習を行う手法では 早期終了（early stopping）の考え方も広く受け入れられます。
評価指標の側では、ROC 曲線 / AUC、適合率・再現率・F 値 など、不均衡データやコスト非対称な問題に合わせた指標選定が実務に浸透しました。

2010年代〜：データ漏えいと分布シフト

データ量の増加とコンペティション文化の広がりにより、データ漏えい（data leakage）や 時系列分割の不備 が見かけ性能を吊り上げる失敗事例として共有されるようになりました。分布シフト（訓練分布と本番分布のずれ）も中心的な論点です。
深層学習以降は、検証データに対する過学習や、評価指標と業務目的のずれといった「評価設計そのものの品質」が、モデル選定と同じ重みで議論されるようになっています。

いまの論点

データ漏えいを避けるパイプライン設計（特に時系列・グループ構造があるとき）
分布シフトに対応する評価（共変量シフト、ラベルシフト、概念ドリフト）
評価指標と業務目的の整合（不均衡、コスト非対称、公平性）
検証データへの過学習（ハイパーパラメータ探索の積み重ねによる楽観バイアス）