このページは、特徴数 d が大きすぎて扱いにくいときに検討する 次元削減の代表例として、**主成分分析(PCA, Principal Component Analysis)**を初学者向けに短く紹介するノートです(厳密な数理は扱いません)。
何をしたいか
元の (d) 本の特徴を、そのまま捨てるのではなく、より少ない (k) 本((k < d))の新しい特徴へ写像して、
- 可視化しやすくする
- 計算量やノイズを抑える
- 多重共線性を緩和する
などの目的を達成しやすくします。
PCA のざっくりしたイメージ
PCA は、データのばらつき(分散)が 大きく残る方向を優先して、新しい座標軸(主成分)を作る考え方です。
結果として得られる新しい特徴は 元特徴の線形結合として表現されます。
注意(短く)
- 解釈は元の列ほど直感に直結しないことがある(主成分の意味を読む必要が出る)
- 前処理(スケーリング)の有無で結果が変わりやすい
- 「次元を減らす」手法は PCA 以外にも多い(用途次第)