このページは、評価と汎化の歴史の 最初期にあたる「統計学に根ざす出発点」 を、初学者向けに短く整理するノートです。時系列の背景は 評価と汎化史、領域の解説は 評価と汎化とは を参照してください。
1960〜1970 年代、機械学習という名称が広く使われる前から、標本誤差 や 推定の信頼性 といった統計学の基本概念が、評価と汎化の土台を作っていました。「ある関数族で過去データを説明する」議論の中で、バイアスとバリアンスのトレードオフ や 過剰適合(オーバーフィッティング) の素朴な姿が課題として共有されていきます。
ざっくりいうと
- 標本誤差:手元のデータは母集団の一部にすぎないので、そこから推定した値は 必ずブレる、という前提。
- 推定の信頼性:どれくらいデータがあれば、推定値をどれくらい信じてよいかを 確率的に 議論する考え方。
- バイアスとバリアンス:モデルが体系的にズレる傾向(バイアス)と、データを少し入れ替えるとぶれる傾向(バリアンス)の トレードオフ。
- 過剰適合の素朴な姿:訓練データに細かく合わせ込みすぎて、未知データで崩れるという、後の「過学習」の原型。
統計学に根ざす出発点で何をしているか
たとえばアンケート調査で平均年収を推定したいとき、母集団全員に聞けない以上、推定値は 必ずブレ ます。古典統計はこのブレを 標本数 や 分散 と関連づけて議論する道具を整えました。機械学習における評価と汎化は、この発想を「過去データから関数を推定して、未知のデータに当てる」場面へ拡張したものとして読めます。
- 母集団から 有限のデータ を取り出すという前提を置く。
- データから 推定値(パラメータや関数) を計算する。
- 推定値の ブレ を、バイアス(体系的ズレ)とバリアンス(試行ごとの揺れ)に分けて議論する。
- モデルを複雑にするほどバリアンスが大きくなり、過剰適合 が起きやすくなる、という認識を持つ。
この時期はまだ「交差検証」「正則化」といった現代の道具立てが体系化される前で、素朴な観察と理論的整理 が中心でした。
強みと限界(短く)
強み(意義)
- 「手元データで自慢しない」という評価設計の 基本姿勢 が、この時期の統計学から引き継がれている。
- バイアス/バリアンスの語彙が、後のモデル比較・正則化の議論を支えている。
限界
- データ量や計算機の制約が大きく、経験的な検証 を回す環境が整っていなかった。
- 「複雑にすると崩れる」という経験則はあっても、汎化を定量的に保証する道具(VC 次元・PAC 学習)はまだ未整理。
- 検証セットや交差検証の 方法論的な共有 はこの後の時代に持ち越される。