階層表現と局所不変性の整理とは

このページは、階層表現と局所不変性の整理 を、初学者向けに短く整理するノートです。時系列の背景は畳み込みと画像認識史を参照してください。

1990〜2000 年代の画像認識では、SIFT や HOG など人手の特徴抽出と SVM などの学習器を組み合わせるパイプラインが実務の主流でした。一方、畳み込みネットワークは 階層的な特徴 と 位置のゆらぎ を、層の積み重ねで学習する設計として、研究の中で理論と実装が整理されていきました。

ざっくりいうと

人手特徴（SIFT / HOG など）：エッジや勾配の統計を固定アルゴリズムで作り、分類器に渡す古典的な流れ。
階層表現：浅い層はエッジ、深い層は部品・物体、という 抽象度の段階 をネットワーク内部で作る発想。
局所不変性：物体が少し動いても同じ特徴が出やすい性質。プーリングや畳み込みの設計と結びつく。
表現学習への橋：「特徴を人が決める」から「データから表現を学ぶ」への移行の中間段階。

階層表現と局所不変性の整理で何をしているか

たとえば歩行者検出では、HOG が セルごとの勾配ヒストグラム を作り、SVM が境界を引く、という分業が定番でした。CNN は、この 特徴設計の工程 そのものを学習可能な層に置き換える、という読み方ができます。当時は ImageNet 規模のブレイクスルー前で、畳み込みは 研究・限定的な応用 が中心でしたが、「なぜ畳み込みが画像に向くのか」の言語化が進んだ時代です。

画像から 低レベル特徴（エッジ、テクスチャ）を抽出する段（人手または学習）。
中レベルで 部品やパターン に相当する表現を組み立てる。
高レベルで クラス判別 に使える特徴へまとめる。
位置のゆらぎは プーリング やフィルタ設計で吸収する。
学習器（SVM やソフトマックス層）で最終ラベルを決める。

強みと限界（短く）

強み

人手特徴の成功体験（何を拾うべきか）が、CNN の 層設計の直感 につながった。
階層性・不変性という語彙が、後の 深いアーキテクチャ の説明に使えるようになった。

限界

実務の主役は依然として 古典パイプライン で、大規模 GPU 学習は一般化していなかった。
データ規模と最適化の課題が残り、ImageNet 時代 まで待つ必要があった。

階層表現と局所不変性の整理とは

ざっくりいうと

階層表現と局所不変性の整理で何をしているか

強みと限界（短く）

関連