このページは、畳み込みネットの萌芽 を、初学者向けに短く整理するノートです。時系列の背景は 畳み込みと画像認識史 を参照してください。
1980〜1990 年代、Yann LeCun らによる LeNet が、手書き数字の認識などで畳み込み・プーリング・全結合を組み合わせた早期の成功例として知られます。たとえば郵便番号の読み取りのように、局所パターンを共有フィルタで拾い、層を重ねて意味へつなげる という骨格が、この時代に実証されました。
ざっくりいうと
- LeNet:畳み込み層とプーリング層を重ね、最後に全結合でクラスを出す、CNN の原型に近い設計。
- 共有フィルタ:同じ重みを画像上でスライドさせ、パラメータ数を抑えつつ局所特徴を拾う発想。
- 勾配学習:誤差から重みを更新する 逆伝播 と組み合わせ、エンドツーエンドで学習する流れが確立されつつありました。
- 制約:当時はデータ規模と計算資源が限られ、一般画像への即時展開はこれから、という段階でした。
畳み込みネットの萌芽で何をしているか
古典的なパイプラインでは、人がエッジやコーナーなどの特徴を設計し、分類器に渡すことが多かったのに対し、LeNet は フィルタそのもの をデータから学ぶ方向を示しました。手書き文字のように背景が比較的単純なタスクでは、浅い層でストローク、深い層で数字全体の形、という 階層的な表現 が自然に現れやすい、という理解が後の CNN 設計の土台になりました。
- 入力画像に 畳み込み を適用し、局所のエッジや曲線に反応する特徴マップを作る。
- プーリング で位置のゆらぎを吸収し、空間解像度を下げる。
- 畳み込みとプーリングを繰り返し、表現を抽象化する。
- 特徴をベクトル化し、全結合層 でクラス(0〜9 など)を出力する。
- 正解ラベルとの誤差から 逆伝播 で全層の重みを更新する。
強みと限界(短く)
強み
- 画像の局所構造を、全結合より 少ないパラメータ で扱える設計を実証した。
- エンドツーエンド学習の 実用例 として、後の深層学習ブームの思想的な先駆けになった。
限界
- データと計算が限られ、一般物体認識 へのスケールはまだ先だった。
- 層が浅く、現代の深いネットワークが扱う 多様な見た目 には届きにくかった。