このページは、事前学習のあと に行われる 指示チューニング(SFT) や アライメント を、初学者向けに短く整理するノートです。生テキストだけの学習は 事前学習とファインチューニング、RNN から続く「出力の作り方」は 埋め込み・隠れ状態・学習と出力 を参照してください。
ざっくりいうと
- 事前学習 … 記事・小説など 次トークン が主役(プロンプト/回答ペアは不要)。
- 指示チューニング … 「指示(プロンプト)+望ましい回答」 のペアで、「質問にはこう答える」形に寄せる。
- アライメント(RLHF など) … 複数候補を人間が順位付けし、丁寧さ・安全性・有用さ を調整。
- 一般ユーザーが使うチャット … 上記を経た 振る舞い +(任意)推論時の検索。
なぜ「プロンプトと回答」が後から要るか
事前学習だけでは、モデルはだいたい 「続きのトークンを予測する」 ことに強くなります。
ユーザーが期待する 「質問に答える」「短く説明する」「拒否する」 などは、別データで明示的に教える 段階が必要です。
| 段階 | データの形 | 目的 |
|---|---|---|
| A. 事前学習 | 生テキスト列 | 言語・知識・コードの土台 |
| B. 指示チューニング(SFT) | 指示 + 望ましい回答 | 対話・指示追従の形式 |
| C. アライメント | 順位付き回答など | 好ましい振る舞い・安全 |
回答のないプロンプトだけ では、B の 「この指示にはこの返答」 は学べません(正解の返答テキストが教師信号にならない)。
指示データはどこから来るか
| 由来 | 内容 |
|---|---|
| 人間が書いた Q&A | アノテータ・契約業者が作成 |
| モデル補助 + 人間検証 | 下書きを人が直す |
| 公開の指示データセット | 研究・オープンデータ(利用条件に注意) |
ネット上の掲示板(質問と返信が同じページ)を 1本のテキスト として事前学習に入れることはありますが、チャット製品向けの指示データ として整えるのは、多くは B で別途用意 します。
EOS・文の終わりと「答えが完成したか」
埋め込み・隠れ状態・学習と出力 で述べたとおり、
- EOS … 学習データ上の 系列終端(文・発話の切れ目で出しやすい)。
- タスクの完了 … 「質問に十分答えた」こととは 別軸。
指示チューニングでは、
- 回答例の 長さ・構成・拒否の仕方
- プロンプトでの 「3段落で」「わからなければそう書いて」
などで、早すぎる EOS や短すぎる回答 を減らす方向に寄せます。それでも 最大長での打ち切り や モデルの誤判断 は起こり得ます。
推論時(ユーザーがチャットするとき)
- ユーザーのメッセージ(+会話履歴・システム指示)をトークン化
- 学習済みモデルで トークンを1個ずつ生成(自己回帰)
- EOS・最大長・停止条件で終了
- 必要なら 検索結果をプロンプトに足したうえで 2〜3 を実行(事前学習のノート)
このときユーザーの1回の質問ごとに重みを更新するわけではない(プライバシー・コストの面でも、通常は別設計)。
古典 ML との対比(ラベルと回答文)
線形回帰とロジスティック回帰 でも、
「ラベルを出す」と「人間が読める回答文を出す」は分けて設計される
ことが多い、と整理しています。LLM でも、
- モデル本体 … トークン列(ラベルに近い内部表現)
- プロダクト … 表示・多言語・注意書き
という 層の分離 が続きます。