畳み込みと画像認識(時系列)

このページは、畳み込みニューラルネットワーク(CNN)画像・空間データ の扱いが、研究と実務の中でどう積み上がってきたかを短く整理するノートです。年号は目安で、厳密な年表より 考え方の移り変わり をつかむことを優先しています。

1980〜1990年代:畳み込みネットの萌芽

Yann LeCun らによる LeNet が、手書き文字認識などで畳み込み・プーリング・全結合を組み合わせた早期の成功例として知られます。
当時は計算資源とデータ規模の制約が大きく、画像全体への一般化はこれからでしたが、「局所パターンを共有フィルタで拾う」という設計の骨格は、この時代に形づくられました。

1990〜2000年代:階層表現と局所不変性の整理

画像認識では SIFT や HOG など、人手で設計した特徴と学習器を組み合わせる流れが主流でした。一方で、畳み込みは 階層的な特徴位置のゆらぎへの頑健性 を、ネットワーク内部で学習する方向性として理論・実装が整理されていきます。
「特徴を人が決める」から「表現をデータから学ぶ」への橋渡しとなる考え方が、研究コミュニティに蓄積されました。

2000〜2010年代:大規模データと GPU への布石

ImageNet のような大規模ラベル付きデータセットの整備と、GPU による並列学習が、深いネットワークを現実的な時間で訓練する土台になりました。
畳み込み単体のブレイクスルーというより、データ・計算・最適化 が揃うまでの準備期間として、2010 年代の飛躍への伏線が張られました。

2010〜2015年代:ImageNet と深い CNN の実用化

AlexNet(2012 年ごろ)をはじめ、深い畳み込みが ImageNet 分類で飛躍的な性能を示し、画像認識の中心的手法として定着しました。
VGGGoogLeNetResNet(残差接続)など、層を深くしつつ学習を安定させる設計が続々と提案され、転移学習 の実務利用も広がりました。

2015年代〜現在:検出・分割と運用の論点

分類だけでなく、物体検出(R-CNN 系、YOLO 系など)や セマンティックセグメンテーション(U-Net、DeepLab など)が畳み込みを骨格に発展しました。
運用では ドメインシフト敵対的入力軽量化・推論コスト説明可能性 が、精度と並んで主題になっています。

いまの論点

  • 大規模事前学習(ViT など注意機構系)と CNN の役割分担・ハイブリッド
  • 少量データ・ドメイン差への 転移学習と適応(fine-tuning、ドメイン適応)
  • エッジ推論向けの 軽量化(量子化、知識蒸留、効率的アーキテクチャ)
  • 医療・自動運転などでの 安全性・監査 と評価設計

関連