このページは、評価と汎化の歴史の中で 「正則化と指標選定の標準化」 にあたる時代を、初学者向けに短く整理するノートです。時系列の背景は 評価と汎化史、領域の解説は 評価と汎化とは を参照してください。
1990〜2000 年代、過学習を抑える側の方法論として L2 正則化(リッジ) と L1 正則化(ラッソ) が線形モデルの標準的な道具になりました。反復学習を行う手法では 早期終了(early stopping)も広く受け入れられます。評価指標の側では ROC 曲線 / AUC、適合率・再現率・F 値 など、不均衡データやコスト非対称な問題に合わせた指標選定が実務に浸透しました。
ざっくりいうと
- L2 正則化(リッジ):損失に「重みの二乗和」のペナルティを足す。係数を 全体的に小さく する効果が出やすい。
- L1 正則化(ラッソ):損失に「重みの絶対値の和」のペナルティを足す。不要な係数を 0 に潰しやすい ため、特徴選択にも使われる。
- 早期終了(early stopping):反復学習で、検証スコアが悪化し始めたところで 学習を打ち切る 方法。実質的に正則化と同じ役割。
- ROC / AUC:しきい値を動かしたときの真陽性率・偽陽性率の関係をプロットしたもの(ROC)と、その下面積(AUC)。しきい値設計に依存しない比較 がしやすい。
- 適合率・再現率・F 値:精度(accuracy)だけでは扱いにくい 不均衡データ や コスト非対称 な問題で使う指標群。
正則化と指標選定で何をしているか
たとえば家賃予測で「駅徒歩」「築年数」「平米数」「最寄り駅名のワンホット」など d 個の特徴を全部突っ込むと、係数が 訓練データのクセに合わせ込み すぎることがあります。正則化は 損失関数にペナルティ項を足して、係数の自由度を抑えるための仕組みです。
- 損失 を「予測誤差 + 正則化項」の形に書き換える。
- 正則化の強さ(ハイパーパラメータ、
λや SVM のCなど)を 検証データ や交差検証で選ぶ。 - L1 と L2 の使い分け(特徴選択をしたいか、係数を全体的に縮めたいか)を決める。
- 反復学習なら、検証損失 を見ながら 早期終了 で学習を止める。
評価指標の側でも、精度(accuracy)だけ では扱いにくい問題(迷惑メール検出のように、見逃し=再現率不足が業務的に痛い場面)が増え、適合率と再現率の両立 や ROC/AUC での比較が標準になりました。
| 指標 | 何を見るか | 使いどころ |
|---|---|---|
| 精度(accuracy) | 全体の正答率 | クラスが均衡している、誤りのコストが対称 |
| 適合率 / 再現率 | 検出した中の正解率 / 取りこぼし | 不均衡、見逃しコストと誤検出コストが非対称 |
| F 値 | 適合率と再現率の調和平均 | バランスを単一スコアで見たいとき |
| ROC / AUC | しきい値を動かしたときの傾向 | しきい値設計を後回しにして比較したいとき |
強みと限界(短く)
強み
- 正則化の 強さ をハイパーパラメータ化することで、過学習と表現力の 綱引き を扱いやすくできる。
- L1 によって 特徴選択 と過学習抑制を一手に行える局面がある。
- 不均衡やコスト非対称への配慮を 指標選定 で持ち込めるため、業務目的とのギャップが小さくなる。
限界
- 正則化の強さを決めるには 検証データ が必要で、データ量が少ないと不安定になりやすい。
- L1 と L2 の使い分けや、ROC/AUC を見る場面・しきい値の選び方には 知見と検証 が要る。
- 指標を選んでも、データ漏えいや分布シフトには 別の対策(次節 分布シフト)が必要。