統計学に根ざす出発点とは

このページは、評価と汎化の歴史の 最初期にあたる「統計学に根ざす出発点」 を、初学者向けに短く整理するノートです。時系列の背景は評価と汎化史、領域の解説は評価と汎化とはを参照してください。

1960〜1970 年代、機械学習という名称が広く使われる前から、標本誤差 や 推定の信頼性 といった統計学の基本概念が、評価と汎化の土台を作っていました。「ある関数族で過去データを説明する」議論の中で、バイアスとバリアンスのトレードオフ や 過剰適合（オーバーフィッティング） の素朴な姿が課題として共有されていきます。

ざっくりいうと

標本誤差：手元のデータは母集団の一部にすぎないので、そこから推定した値は 必ずブレる、という前提。
推定の信頼性：どれくらいデータがあれば、推定値をどれくらい信じてよいかを 確率的に 議論する考え方。
バイアスとバリアンス：モデルが体系的にズレる傾向（バイアス）と、データを少し入れ替えるとぶれる傾向（バリアンス）の トレードオフ。
過剰適合の素朴な姿：訓練データに細かく合わせ込みすぎて、未知データで崩れるという、後の「過学習」の原型。

統計学に根ざす出発点で何をしているか

たとえばアンケート調査で平均年収を推定したいとき、母集団全員に聞けない以上、推定値は 必ずブレ ます。古典統計はこのブレを 標本数 や分散と関連づけて議論する道具を整えました。機械学習における評価と汎化は、この発想を「過去データから関数を推定して、未知のデータに当てる」場面へ拡張したものとして読めます。

母集団から 有限のデータ を取り出すという前提を置く。
データから 推定値（パラメータや関数） を計算する。
推定値のブレを、バイアス（体系的ズレ）とバリアンス（試行ごとの揺れ）に分けて議論する。
モデルを複雑にするほどバリアンスが大きくなり、過剰適合 が起きやすくなる、という認識を持つ。

この時期はまだ「交差検証」「正則化」といった現代の道具立てが体系化される前で、素朴な観察と理論的整理 が中心でした。

強みと限界（短く）

強み（意義）

「手元データで自慢しない」という評価設計の 基本姿勢 が、この時期の統計学から引き継がれている。
バイアス／バリアンスの語彙が、後のモデル比較・正則化の議論を支えている。

限界

データ量や計算機の制約が大きく、経験的な検証 を回す環境が整っていなかった。
「複雑にすると崩れる」という経験則はあっても、汎化を定量的に保証する道具（VC 次元・PAC 学習）はまだ未整理。
検証セットや交差検証の 方法論的な共有 はこの後の時代に持ち越される。