畳み込みネットの萌芽とは

このページは、畳み込みネットの萌芽 を、初学者向けに短く整理するノートです。時系列の背景は畳み込みと画像認識史を参照してください。

1980〜1990 年代、Yann LeCun らによる LeNet が、手書き数字の認識などで畳み込み・プーリング・全結合を組み合わせた早期の成功例として知られます。たとえば郵便番号の読み取りのように、局所パターンを共有フィルタで拾い、層を重ねて意味へつなげる という骨格が、この時代に実証されました。

ざっくりいうと

LeNet：畳み込み層とプーリング層を重ね、最後に全結合でクラスを出す、CNN の原型に近い設計。
共有フィルタ：同じ重みを画像上でスライドさせ、パラメータ数を抑えつつ局所特徴を拾う発想。
勾配学習：誤差から重みを更新する 逆伝播 と組み合わせ、エンドツーエンドで学習する流れが確立されつつありました。
制約：当時はデータ規模と計算資源が限られ、一般画像への即時展開はこれから、という段階でした。

畳み込みネットの萌芽で何をしているか

古典的なパイプラインでは、人がエッジやコーナーなどの特徴を設計し、分類器に渡すことが多かったのに対し、LeNet は フィルタそのもの をデータから学ぶ方向を示しました。手書き文字のように背景が比較的単純なタスクでは、浅い層でストローク、深い層で数字全体の形、という 階層的な表現 が自然に現れやすい、という理解が後の CNN 設計の土台になりました。

入力画像に 畳み込み を適用し、局所のエッジや曲線に反応する特徴マップを作る。
プーリング で位置のゆらぎを吸収し、空間解像度を下げる。
畳み込みとプーリングを繰り返し、表現を抽象化する。
特徴をベクトル化し、全結合層 でクラス（0〜9 など）を出力する。
正解ラベルとの誤差から 逆伝播 で全層の重みを更新する。

強みと限界（短く）

強み

画像の局所構造を、全結合より 少ないパラメータ で扱える設計を実証した。
エンドツーエンド学習の 実用例 として、後の深層学習ブームの思想的な先駆けになった。

限界

データと計算が限られ、一般物体認識 へのスケールはまだ先だった。
層が浅く、現代の深いネットワークが扱う 多様な見た目 には届きにくかった。

畳み込みネットの萌芽とは

ざっくりいうと

畳み込みネットの萌芽で何をしているか

強みと限界（短く）

関連