統計学に根ざす出発点とは

このページは、評価と汎化の歴史の 最初期にあたる「統計学に根ざす出発点」 を、初学者向けに短く整理するノートです。時系列の背景は 評価と汎化史、領域の解説は 評価と汎化とは を参照してください。

1960〜1970 年代、機械学習という名称が広く使われる前から、標本誤差推定の信頼性 といった統計学の基本概念が、評価と汎化の土台を作っていました。「ある関数族で過去データを説明する」議論の中で、バイアスとバリアンスのトレードオフ過剰適合(オーバーフィッティング) の素朴な姿が課題として共有されていきます。

ざっくりいうと

  • 標本誤差:手元のデータは母集団の一部にすぎないので、そこから推定した値は 必ずブレる、という前提。
  • 推定の信頼性:どれくらいデータがあれば、推定値をどれくらい信じてよいかを 確率的に 議論する考え方。
  • バイアスとバリアンス:モデルが体系的にズレる傾向(バイアス)と、データを少し入れ替えるとぶれる傾向(バリアンス)の トレードオフ
  • 過剰適合の素朴な姿:訓練データに細かく合わせ込みすぎて、未知データで崩れるという、後の「過学習」の原型。

統計学に根ざす出発点で何をしているか

たとえばアンケート調査で平均年収を推定したいとき、母集団全員に聞けない以上、推定値は 必ずブレ ます。古典統計はこのブレを 標本数分散 と関連づけて議論する道具を整えました。機械学習における評価と汎化は、この発想を「過去データから関数を推定して、未知のデータに当てる」場面へ拡張したものとして読めます。

  1. 母集団から 有限のデータ を取り出すという前提を置く。
  2. データから 推定値(パラメータや関数) を計算する。
  3. 推定値の ブレ を、バイアス(体系的ズレ)とバリアンス(試行ごとの揺れ)に分けて議論する。
  4. モデルを複雑にするほどバリアンスが大きくなり、過剰適合 が起きやすくなる、という認識を持つ。

この時期はまだ「交差検証」「正則化」といった現代の道具立てが体系化される前で、素朴な観察と理論的整理 が中心でした。

強みと限界(短く)

強み(意義)

  • 手元データで自慢しない」という評価設計の 基本姿勢 が、この時期の統計学から引き継がれている。
  • バイアス/バリアンスの語彙が、後のモデル比較・正則化の議論を支えている。

限界

  • データ量や計算機の制約が大きく、経験的な検証 を回す環境が整っていなかった。
  • 「複雑にすると崩れる」という経験則はあっても、汎化を定量的に保証する道具(VC 次元・PAC 学習)はまだ未整理。
  • 検証セットや交差検証の 方法論的な共有 はこの後の時代に持ち越される。

関連