次元削減:PCA の入口

このページは、特徴数 d が大きすぎて扱いにくいときに検討する 次元削減の代表例として、**主成分分析(PCA, Principal Component Analysis)**を初学者向けに短く紹介するノートです(厳密な数理は扱いません)。

何をしたいか

元の (d) 本の特徴を、そのまま捨てるのではなく、より少ない (k) 本((k < d))の新しい特徴へ写像して、

  • 可視化しやすくする
  • 計算量やノイズを抑える
  • 多重共線性を緩和する

などの目的を達成しやすくします。

PCA のざっくりしたイメージ

PCA は、データのばらつき(分散)が 大きく残る方向を優先して、新しい座標軸(主成分)を作る考え方です。
結果として得られる新しい特徴は 元特徴の線形結合として表現されます。

注意(短く)

  • 解釈は元の列ほど直感に直結しないことがある(主成分の意味を読む必要が出る)
  • 前処理(スケーリング)の有無で結果が変わりやすい
  • 「次元を減らす」手法は PCA 以外にも多い(用途次第)

関連