事前学習とファインチューニングとは

このページは、ChatGPT や Gemini のような 基盤モデル が、インターネット由来の大量テキストを どう集め、どう学習に使うか を、初学者向けに短く整理するノートです。RNN 時代の「次トークン」との対応は 埋め込み・隠れ状態・学習と出力、全体の史は 基盤モデル史 を参照してください。

ざっくりいうと

  • 事前学習 … 記事・小説・コードなど 回答ペアがない生テキスト を、主に 次トークン予測 で学習し、言語と知識の 土台(重み) を作る。
  • データ収集 … Web クロール、Common Crawl、ライセンス付きコーパス、Wikipedia などを 前処理(重複除去・品質フィルタなど)して使う。
  • 一般ユーザーのチャット … 質問のたびに全网を学習し直すのではなく、学習済み重みで推論する。最新情報 は多くの場合 推論時の検索・ブラウジング(RAG)新しいモデル版のリリース で補う。
  • チャットらしい答え方 … 事前学習の あと に、指示+回答ペアなどで調整(指示・対話とアライメント)。

インターネットのデータは「プロンプトと回答」ではない

ニュース、小説、掲示板、チャットログなどは、もともと 1本のテキスト列 です。大規模言語モデルの 事前学習 では、これで足ります。

文「私・は・猫・です」をトークン列にすると、学習ではだいたい次のように 正解を文中から切り出す(自己教師あり)です。

ここまで読んだ入力 正解(次のトークン)
(開始)
私・は
私・は・猫 です

別の人が書いた「回答」列は不要 です。モデルが学ぶのは 「続きのトークンは何か」 という統計と文脈です(リカレント系の補足 の「次トークン予測」と同型。実装は RNN から Transformer へ移ったが、正解の作り方の発想は同系統)。

大量データの集め方(ざっくり)

企業・プロジェクトごとに詳細は異なりますが、よくある 部品 は次のとおりです。

手段 内容
Web クロール リンクを辿って HTML 等を取得
Common Crawl など 保存済み Web スナップショットの利用
ライセンス契約 出版社・ニュース社など 利用許諾付き のテキスト
公開コーパス Wikipedia、オープンソースコード(ライセンスに注意)、論文など

そのあと 工場ライン的な前処理(重複除去、スパム除去、個人情報・有害コンテンツのフィルタ、言語判定、トークン化)を経て、学習用の巨大テキストの海 を作ります。ここではまだ 「質問/回答」形式にそろえる必要はない

学習フェーズと推論フェーズ(2つを分ける)

【学習(社内で数週間〜数月・たまに年単位)】
  過去に集めたコーパス(インターネット風データのスナップショット含む)
    → 次トークン予測などで重みを更新
    → モデルファイル(カットオフ日までの知識が重みに入る)

【推論(ユーザーがチャットするたび)】
  質問 + (任意)検索で取った最新の段落
    → 重みは基本固定のままトークン生成
    → 画面に回答
誤解しやすい点 実際
毎回インターネット全体を学習している 通常は違う(推論は基本 重み固定
インターネットで学習したから常に最新 学習時点まで が重みに入る。今日のニュース は検索連携や新モデル版で補うことが多い
ネットのチャットがそのまま Q&A ペア 事前学習では 1本のテキスト として入ることもあるが、チャット形式の調整は別段階

推論時の検索・ブラウジング(最新情報)

学習済みモデル に加え、製品によっては 検索 API・ブラウジング・RAG で、質問時にページやスニペットを取り、プロンプトに足してから 生成します。

  • このときも 重みを更新しているわけではない(読む資料が変わる)。
  • 「参照 URL が表示される」機能は、この ② 推論時取得 に近いことが多い。
  • 検索がオフのチャットは、学習時までの知識と推測 の範囲になりやすい。

事前学習のあと:ファインチューニング

手元タスク用データで 重みを少し直す 段階です。画像では ImageNet 事前学習の流用と同様の 転移 の発想です(深層学習モデルとは の「事前学習と fine-tuning」)。

チャット製品の 会話の仕方 そのものは、主に次のフォルダで扱う 指示チューニング・アライメント が担います。

強みと限界(短く)

強み

  • 回答ペアがなくても スケールしやすい(Web 規模のテキスト)。
  • 1つの土台を 多様な下流タスク に流用しやすい。

限界

  • コーパスの 偏り・有害性・著作権 がそのまま論点になる。
  • 知識の鮮度 は学習のスナップショットに縛られる(最新は推論時手段か再学習)。

関連