深層学習モデルとは

このページは、深層学習モデル（多層のニューラルネットで表現を学ぶ系）を、初学者向けに短く整理するノートです。時系列の背景は深層学習モデル史、AI 全体の座標は AI モデル史を参照してください。直前の流れである古典機械学習モデルとの違いも意識して読むと、位置づけがはっきりします。

ざっくりいうと

表現学習：特徴量を人が設計するのではなく、ネットワークの中間層 がデータから表現を作る、という方向性。
深層（多層）：変換を何段も重ね、浅い層は単純なパターン、深い層は意味に近い抽象へつなげるイメージ。
畳み込み（CNN）：画像など 空間的に近い画素 が意味を持つデータ向け。局所パターンを共有フィルタで拾う（畳み込みと画像認識）。
リカレント（RNN 系）：音声・テキストなど順序があるデータ向け。文脈を蓄えながら処理する（リカレントと系列モデル）。
Transformer と自己注意：離れた位置同士の関係を、注意重みで柔軟に扱う設計。言語モデルの主流になった（Transformer と注意機構）。
スケールと運用：モデル・データ・計算が大きくなるほど、コスト・再現性・監査 が主題になる（学習スケールと運用上の論点）。

基盤モデル（大規模に事前学習し、下流タスクへ流用する流れ）は、上記の延長として理解できることが多いです。

古典機械学習との違い（感覚）

観点	古典機械学習（典型）	深層学習（典型）
特徴の作り方	人が特徴量を設計することが多い	表現をデータから学ぶことが多い
モデルの形	線形・SVM・木など、比較的解釈しやすい族	多層ネット＋非線形活性化など、表現力が高い
データ量	少〜中規模でも回る場面がある	大規模データと GPU 計算に寄りやすい
説明・運用	係数や木の分岐で説明しやすい場面がある	性能は高い一方、検証・運用の負荷が重くなりがち

どちらか一方が常に正解、というわけではなく、データ量・説明責任・レイテンシ・コストで 併用や使い分け されることが多いです。

深層学習モデルで何をしているか

たとえば製品画像を「良品／不良品」に分類するとき、古典 ML ではエッジや色の統計などを人が決めてから分類器に渡すことが多かったのに対し、深層学習では 畳み込み層がその設計を学習に任せる、という違いが出ます。だいたい次の流れで理解できます。

入力：画像・系列・テキストなどを、ネットワークが受け取れる形（テンソル）に整える。
順伝播：層を通して中間表現（特徴マップや隠れ状態）を計算する（詳細は下の「順伝播と逆伝播」）。
損失：正解ラベルとの誤差（交差エントロピー、MSE など）を測る。
逆伝播：損失から勾配を求め、重みを更新する（同節）。
検証・運用：未知データでの性能、推論コスト、ログと監査を、学習とセットで設計する。

タスクによって骨格は異なりますが、「表現を作るブロック」と「タスク用のヘッド」に分けて考えると、畳み込み・リカレント・Transformer の違いが整理しやすいです。

読み進め方の目安

深層学習モデル史で、表現学習への移行と ①〜⑤ の流れを掴む
画像なら畳み込みと画像認識（図表付き）
系列・文脈ならリカレントと系列モデル
言語・長距離依存なら Transformer と注意機構
本番運用・大規模化なら学習スケールと運用上の論点
評価の前提は評価と汎化も併用する

学習フェーズと推論フェーズ

段階	役割	触るもの
学習	重み・表現をデータから更新	損失、オプティマイザ、データ拡張、正則化
推論	学習済みモデルで予測を出力	前処理の一貫性、バッチサイズ、量子化など

強みと限界（短く）

強み

画像・言語など、人手特徴では扱いにくい 入力でも、性能を伸ばしやすい場面がある。
転移学習 や基盤モデルにより、下流タスクを少ないラベルから始めやすい。
研究・実務の両方で、共通のアーキテクチャ言語（層、ヘッド、注意など）が共有されている。

限界

データ・計算・電力の コスト が大きく、再現実験や環境負荷が論点になる。
説明可能性 や公平性、安全性の検証は、古典 ML より重くなりがち。
分布シフト（学習と本番のデータのずれ）やデータ漏えいで、見かけ性能だけが高い、という失敗も起きやすい。

よく混ざる用語（会話での補足）

順伝播と逆伝播（基本用語）

ニューラルネットの学習で必ずセットになる用語です。系列・RNN 向けの補足（BPTT・(h_t)）は単純リカレントと誤差逆伝播とはの同節を参照してください。

	順伝播	逆伝播
英語	forward propagation	backward propagation（学習では backpropagation＝誤差逆伝播）
向き	入力 → 出力（層を上から下へ）	損失 → 各層の重み（出力側から入力側へ）
計算するもの	活性化・中間表現・予測・損失 (L)	勾配 (\partial L / \partial w)（重み (w) ごとの微分）
推論	する	しない
学習	する	する（勾配で重みを更新）

順伝播 … データをネットに流し、予測まで出す。推論も学習も まずここを行う。

逆伝播 … 損失 (L) から 連鎖律 で勾配を求め、

[ w \leftarrow w - \eta \frac{\partial L}{\partial w} ]

のように重みを直す（(\eta)＝学習率）。学習時だけ 必要。

誤差逆伝播 … 逆伝播のうち、正解との誤差（損失） を起点にする学習手続きの呼び名。CNN・Transformer でも同じ考え方です。

勾配 … 逆伝播の結果。「各重みをどちらに・どれだけ動かすと損失が減るか」の情報（勾配消失は RNN での典型課題）。

深層と浅層

「深層」は 隠れ層の数が多い という日常的な意味で使われることが多いです。層が浅くても「ニューラルネット」である点は同じで、問題の難しさとデータ量に応じて深さを選びます。

エンドツーエンド

入力から出力までを 一つのネットワーク で学習する、という言い方です。中間の特徴設計を人手で挟まない、というニュアンスがあります。

事前学習と fine-tuning

大規模データで 事前学習 した重みを初期値に、手元タスク用データで 微調整（fine-tuning） する流れです。画像の ImageNet、言語の大規模コーパスなどが代表例です。