このページは、ChatGPT や Gemini のような 基盤モデル が、インターネット由来の大量テキストを どう集め、どう学習に使うか を、初学者向けに短く整理するノートです。RNN 時代の「次トークン」との対応は 埋め込み・隠れ状態・学習と出力、全体の史は 基盤モデル史 を参照してください。
ざっくりいうと
- 事前学習 … 記事・小説・コードなど 回答ペアがない生テキスト を、主に 次トークン予測 で学習し、言語と知識の 土台(重み) を作る。
- データ収集 … Web クロール、Common Crawl、ライセンス付きコーパス、Wikipedia などを 前処理(重複除去・品質フィルタなど)して使う。
- 一般ユーザーのチャット … 質問のたびに全网を学習し直すのではなく、学習済み重みで推論する。最新情報 は多くの場合 推論時の検索・ブラウジング(RAG) か 新しいモデル版のリリース で補う。
- チャットらしい答え方 … 事前学習の あと に、指示+回答ペアなどで調整(指示・対話とアライメント)。
インターネットのデータは「プロンプトと回答」ではない
ニュース、小説、掲示板、チャットログなどは、もともと 1本のテキスト列 です。大規模言語モデルの 事前学習 では、これで足ります。
文「私・は・猫・です」をトークン列にすると、学習ではだいたい次のように 正解を文中から切り出す(自己教師あり)です。
| ここまで読んだ入力 | 正解(次のトークン) |
|---|---|
| (開始) | 私 |
| 私 | は |
| 私・は | 猫 |
| 私・は・猫 | です |
別の人が書いた「回答」列は不要 です。モデルが学ぶのは 「続きのトークンは何か」 という統計と文脈です(リカレント系の補足 の「次トークン予測」と同型。実装は RNN から Transformer へ移ったが、正解の作り方の発想は同系統)。
大量データの集め方(ざっくり)
企業・プロジェクトごとに詳細は異なりますが、よくある 部品 は次のとおりです。
| 手段 | 内容 |
|---|---|
| Web クロール | リンクを辿って HTML 等を取得 |
| Common Crawl など | 保存済み Web スナップショットの利用 |
| ライセンス契約 | 出版社・ニュース社など 利用許諾付き のテキスト |
| 公開コーパス | Wikipedia、オープンソースコード(ライセンスに注意)、論文など |
そのあと 工場ライン的な前処理(重複除去、スパム除去、個人情報・有害コンテンツのフィルタ、言語判定、トークン化)を経て、学習用の巨大テキストの海 を作ります。ここではまだ 「質問/回答」形式にそろえる必要はない。
学習フェーズと推論フェーズ(2つを分ける)
【学習(社内で数週間〜数月・たまに年単位)】
過去に集めたコーパス(インターネット風データのスナップショット含む)
→ 次トークン予測などで重みを更新
→ モデルファイル(カットオフ日までの知識が重みに入る)
【推論(ユーザーがチャットするたび)】
質問 + (任意)検索で取った最新の段落
→ 重みは基本固定のままトークン生成
→ 画面に回答
| 誤解しやすい点 | 実際 |
|---|---|
| 毎回インターネット全体を学習している | 通常は違う(推論は基本 重み固定) |
| インターネットで学習したから常に最新 | 学習時点まで が重みに入る。今日のニュース は検索連携や新モデル版で補うことが多い |
| ネットのチャットがそのまま Q&A ペア | 事前学習では 1本のテキスト として入ることもあるが、チャット形式の調整は別段階 |
推論時の検索・ブラウジング(最新情報)
学習済みモデル に加え、製品によっては 検索 API・ブラウジング・RAG で、質問時にページやスニペットを取り、プロンプトに足してから 生成します。
- このときも 重みを更新しているわけではない(読む資料が変わる)。
- 「参照 URL が表示される」機能は、この ② 推論時取得 に近いことが多い。
- 検索がオフのチャットは、学習時までの知識と推測 の範囲になりやすい。
事前学習のあと:ファインチューニング
手元タスク用データで 重みを少し直す 段階です。画像では ImageNet 事前学習の流用と同様の 転移 の発想です(深層学習モデルとは の「事前学習と fine-tuning」)。
チャット製品の 会話の仕方 そのものは、主に次のフォルダで扱う 指示チューニング・アライメント が担います。
強みと限界(短く)
強み
- 回答ペアがなくても スケールしやすい(Web 規模のテキスト)。
- 1つの土台を 多様な下流タスク に流用しやすい。
限界
- コーパスの 偏り・有害性・著作権 がそのまま論点になる。
- 知識の鮮度 は学習のスナップショットに縛られる(最新は推論時手段か再学習)。