畳み込みと画像認識（時系列）

このページは、畳み込みニューラルネットワーク（CNN） と 画像・空間データ の扱いが、研究と実務の中でどう積み上がってきたかを短く整理するノートです。年号は目安で、厳密な年表より 考え方の移り変わり をつかむことを優先しています。

1980〜1990年代：畳み込みネットの萌芽

Yann LeCun らによる LeNet が、手書き文字認識などで畳み込み・プーリング・全結合を組み合わせた早期の成功例として知られます。
当時は計算資源とデータ規模の制約が大きく、画像全体への一般化はこれからでしたが、「局所パターンを共有フィルタで拾う」という設計の骨格は、この時代に形づくられました。

1990〜2000年代：階層表現と局所不変性の整理

画像認識では SIFT や HOG など、人手で設計した特徴と学習器を組み合わせる流れが主流でした。一方で、畳み込みは 階層的な特徴 と 位置のゆらぎへの頑健性 を、ネットワーク内部で学習する方向性として理論・実装が整理されていきます。
「特徴を人が決める」から「表現をデータから学ぶ」への橋渡しとなる考え方が、研究コミュニティに蓄積されました。

2000〜2010年代：大規模データと GPU への布石

ImageNet のような大規模ラベル付きデータセットの整備と、GPU による並列学習が、深いネットワークを現実的な時間で訓練する土台になりました。
畳み込み単体のブレイクスルーというより、データ・計算・最適化 が揃うまでの準備期間として、2010 年代の飛躍への伏線が張られました。

2010〜2015年代：ImageNet と深い CNN の実用化

AlexNet（2012 年ごろ）をはじめ、深い畳み込みが ImageNet 分類で飛躍的な性能を示し、画像認識の中心的手法として定着しました。
VGG や GoogLeNet、ResNet（残差接続）など、層を深くしつつ学習を安定させる設計が続々と提案され、転移学習 の実務利用も広がりました。

2015年代〜現在：検出・分割と運用の論点

分類だけでなく、物体検出（R-CNN 系、YOLO 系など）や セマンティックセグメンテーション（U-Net、DeepLab など）が畳み込みを骨格に発展しました。
運用では ドメインシフト、敵対的入力、軽量化・推論コスト、説明可能性 が、精度と並んで主題になっています。

いまの論点

大規模事前学習（ViT など注意機構系）と CNN の役割分担・ハイブリッド
少量データ・ドメイン差への 転移学習と適応（fine-tuning、ドメイン適応）
エッジ推論向けの 軽量化（量子化、知識蒸留、効率的アーキテクチャ）
医療・自動運転などでの 安全性・監査 と評価設計