事前学習とファインチューニングとは

このページは、ChatGPT や Gemini のような 基盤モデル が、インターネット由来の大量テキストを どう集め、どう学習に使うか を、初学者向けに短く整理するノートです。RNN 時代の「次トークン」との対応は埋め込み・隠れ状態・学習と出力、全体の史は基盤モデル史を参照してください。

ざっくりいうと

事前学習 … 記事・小説・コードなど 回答ペアがない生テキスト を、主に 次トークン予測 で学習し、言語と知識の 土台（重み） を作る。
データ収集 … Web クロール、Common Crawl、ライセンス付きコーパス、Wikipedia などを 前処理（重複除去・品質フィルタなど）して使う。
一般ユーザーのチャット … 質問のたびに全网を学習し直すのではなく、学習済み重みで推論する。最新情報 は多くの場合 推論時の検索・ブラウジング（RAG） か 新しいモデル版のリリース で補う。
チャットらしい答え方 … 事前学習のあとに、指示＋回答ペアなどで調整（指示・対話とアライメント）。

インターネットのデータは「プロンプトと回答」ではない

ニュース、小説、掲示板、チャットログなどは、もともと 1本のテキスト列 です。大規模言語モデルの 事前学習 では、これで足ります。

文「私・は・猫・です」をトークン列にすると、学習ではだいたい次のように 正解を文中から切り出す（自己教師あり）です。

ここまで読んだ入力	正解（次のトークン）
（開始）	私
私	は
私・は	猫
私・は・猫	です

別の人が書いた「回答」列は不要 です。モデルが学ぶのは 「続きのトークンは何か」 という統計と文脈です（リカレント系の補足の「次トークン予測」と同型。実装は RNN から Transformer へ移ったが、正解の作り方の発想は同系統）。

大量データの集め方（ざっくり）

企業・プロジェクトごとに詳細は異なりますが、よくある部品は次のとおりです。

手段	内容
Web クロール	リンクを辿って HTML 等を取得
Common Crawl など	保存済み Web スナップショットの利用
ライセンス契約	出版社・ニュース社など利用許諾付きのテキスト
公開コーパス	Wikipedia、オープンソースコード（ライセンスに注意）、論文など

そのあと 工場ライン的な前処理（重複除去、スパム除去、個人情報・有害コンテンツのフィルタ、言語判定、トークン化）を経て、学習用の巨大テキストの海 を作ります。ここではまだ 「質問／回答」形式にそろえる必要はない。

学習フェーズと推論フェーズ（2つを分ける）

【学習（社内で数週間〜数月・たまに年単位）】
  過去に集めたコーパス（インターネット風データのスナップショット含む）
    → 次トークン予測などで重みを更新
    → モデルファイル（カットオフ日までの知識が重みに入る）

【推論（ユーザーがチャットするたび）】
  質問 + （任意）検索で取った最新の段落
    → 重みは基本固定のままトークン生成
    → 画面に回答

誤解しやすい点	実際
毎回インターネット全体を学習している	通常は違う（推論は基本重み固定）
インターネットで学習したから常に最新	学習時点までが重みに入る。今日のニュースは検索連携や新モデル版で補うことが多い
ネットのチャットがそのまま Q&A ペア	事前学習では 1本のテキストとして入ることもあるが、チャット形式の調整は別段階

推論時の検索・ブラウジング（最新情報）

学習済みモデル に加え、製品によっては 検索 API・ブラウジング・RAG で、質問時にページやスニペットを取り、プロンプトに足してから 生成します。

このときも 重みを更新しているわけではない（読む資料が変わる）。
「参照 URL が表示される」機能は、この ② 推論時取得 に近いことが多い。
検索がオフのチャットは、学習時までの知識と推測 の範囲になりやすい。

事前学習のあと：ファインチューニング

手元タスク用データで 重みを少し直す 段階です。画像では ImageNet 事前学習の流用と同様の転移の発想です（深層学習モデルとはの「事前学習と fine-tuning」）。

チャット製品の 会話の仕方 そのものは、主に次のフォルダで扱う 指示チューニング・アライメント が担います。

強みと限界（短く）

強み

回答ペアがなくても スケールしやすい（Web 規模のテキスト）。
1つの土台を 多様な下流タスク に流用しやすい。

限界

コーパスの 偏り・有害性・著作権 がそのまま論点になる。
知識の鮮度 は学習のスナップショットに縛られる（最新は推論時手段か再学習）。