階層表現と局所不変性の整理とは

このページは、階層表現と局所不変性の整理 を、初学者向けに短く整理するノートです。時系列の背景は 畳み込みと画像認識史 を参照してください。

1990〜2000 年代の画像認識では、SIFT や HOG など人手の特徴抽出と SVM などの学習器を組み合わせるパイプラインが実務の主流でした。一方、畳み込みネットワークは 階層的な特徴位置のゆらぎ を、層の積み重ねで学習する設計として、研究の中で理論と実装が整理されていきました。

ざっくりいうと

  • 人手特徴(SIFT / HOG など):エッジや勾配の統計を固定アルゴリズムで作り、分類器に渡す古典的な流れ。
  • 階層表現:浅い層はエッジ、深い層は部品・物体、という 抽象度の段階 をネットワーク内部で作る発想。
  • 局所不変性:物体が少し動いても同じ特徴が出やすい性質。プーリングや畳み込みの設計と結びつく。
  • 表現学習への橋:「特徴を人が決める」から「データから表現を学ぶ」への移行の中間段階。

階層表現と局所不変性の整理で何をしているか

たとえば歩行者検出では、HOG が セルごとの勾配ヒストグラム を作り、SVM が境界を引く、という分業が定番でした。CNN は、この 特徴設計の工程 そのものを学習可能な層に置き換える、という読み方ができます。当時は ImageNet 規模のブレイクスルー前で、畳み込みは 研究・限定的な応用 が中心でしたが、「なぜ畳み込みが画像に向くのか」の言語化が進んだ時代です。

  1. 画像から 低レベル特徴(エッジ、テクスチャ)を抽出する段(人手または学習)。
  2. 中レベルで 部品やパターン に相当する表現を組み立てる。
  3. 高レベルで クラス判別 に使える特徴へまとめる。
  4. 位置のゆらぎは プーリング やフィルタ設計で吸収する。
  5. 学習器(SVM やソフトマックス層)で最終ラベルを決める。

強みと限界(短く)

強み

  • 人手特徴の成功体験(何を拾うべきか)が、CNN の 層設計の直感 につながった。
  • 階層性・不変性という語彙が、後の 深いアーキテクチャ の説明に使えるようになった。

限界

  • 実務の主役は依然として 古典パイプライン で、大規模 GPU 学習は一般化していなかった。
  • データ規模と最適化の課題が残り、ImageNet 時代 まで待つ必要があった。

関連