このページは、階層表現と局所不変性の整理 を、初学者向けに短く整理するノートです。時系列の背景は 畳み込みと画像認識史 を参照してください。
1990〜2000 年代の画像認識では、SIFT や HOG など人手の特徴抽出と SVM などの学習器を組み合わせるパイプラインが実務の主流でした。一方、畳み込みネットワークは 階層的な特徴 と 位置のゆらぎ を、層の積み重ねで学習する設計として、研究の中で理論と実装が整理されていきました。
ざっくりいうと
- 人手特徴(SIFT / HOG など):エッジや勾配の統計を固定アルゴリズムで作り、分類器に渡す古典的な流れ。
- 階層表現:浅い層はエッジ、深い層は部品・物体、という 抽象度の段階 をネットワーク内部で作る発想。
- 局所不変性:物体が少し動いても同じ特徴が出やすい性質。プーリングや畳み込みの設計と結びつく。
- 表現学習への橋:「特徴を人が決める」から「データから表現を学ぶ」への移行の中間段階。
階層表現と局所不変性の整理で何をしているか
たとえば歩行者検出では、HOG が セルごとの勾配ヒストグラム を作り、SVM が境界を引く、という分業が定番でした。CNN は、この 特徴設計の工程 そのものを学習可能な層に置き換える、という読み方ができます。当時は ImageNet 規模のブレイクスルー前で、畳み込みは 研究・限定的な応用 が中心でしたが、「なぜ畳み込みが画像に向くのか」の言語化が進んだ時代です。
- 画像から 低レベル特徴(エッジ、テクスチャ)を抽出する段(人手または学習)。
- 中レベルで 部品やパターン に相当する表現を組み立てる。
- 高レベルで クラス判別 に使える特徴へまとめる。
- 位置のゆらぎは プーリング やフィルタ設計で吸収する。
- 学習器(SVM やソフトマックス層)で最終ラベルを決める。
強みと限界(短く)
強み
- 人手特徴の成功体験(何を拾うべきか)が、CNN の 層設計の直感 につながった。
- 階層性・不変性という語彙が、後の 深いアーキテクチャ の説明に使えるようになった。
限界
- 実務の主役は依然として 古典パイプライン で、大規模 GPU 学習は一般化していなかった。
- データ規模と最適化の課題が残り、ImageNet 時代 まで待つ必要があった。