指示・対話とアライメントとは

このページは、事前学習のあと に行われる 指示チューニング(SFT)アライメント を、初学者向けに短く整理するノートです。生テキストだけの学習は 事前学習とファインチューニング、RNN から続く「出力の作り方」は 埋め込み・隠れ状態・学習と出力 を参照してください。

ざっくりいうと

  • 事前学習 … 記事・小説など 次トークン が主役(プロンプト/回答ペアは不要)。
  • 指示チューニング「指示(プロンプト)+望ましい回答」 のペアで、「質問にはこう答える」形に寄せる。
  • アライメント(RLHF など) … 複数候補を人間が順位付けし、丁寧さ・安全性・有用さ を調整。
  • 一般ユーザーが使うチャット … 上記を経た 振る舞い +(任意)推論時の検索

なぜ「プロンプトと回答」が後から要るか

事前学習だけでは、モデルはだいたい 「続きのトークンを予測する」 ことに強くなります。
ユーザーが期待する 「質問に答える」「短く説明する」「拒否する」 などは、別データで明示的に教える 段階が必要です。

段階 データの形 目的
A. 事前学習 生テキスト列 言語・知識・コードの土台
B. 指示チューニング(SFT) 指示 + 望ましい回答 対話・指示追従の形式
C. アライメント 順位付き回答など 好ましい振る舞い・安全

回答のないプロンプトだけ では、B の 「この指示にはこの返答」 は学べません(正解の返答テキストが教師信号にならない)。

指示データはどこから来るか

由来 内容
人間が書いた Q&A アノテータ・契約業者が作成
モデル補助 + 人間検証 下書きを人が直す
公開の指示データセット 研究・オープンデータ(利用条件に注意)

ネット上の掲示板(質問と返信が同じページ)を 1本のテキスト として事前学習に入れることはありますが、チャット製品向けの指示データ として整えるのは、多くは B で別途用意 します。

EOS・文の終わりと「答えが完成したか」

埋め込み・隠れ状態・学習と出力 で述べたとおり、

  • EOS … 学習データ上の 系列終端(文・発話の切れ目で出しやすい)。
  • タスクの完了 … 「質問に十分答えた」こととは 別軸

指示チューニングでは、

  • 回答例の 長さ・構成・拒否の仕方
  • プロンプトでの 「3段落で」「わからなければそう書いて」

などで、早すぎる EOS や短すぎる回答 を減らす方向に寄せます。それでも 最大長での打ち切りモデルの誤判断 は起こり得ます。

推論時(ユーザーがチャットするとき)

  1. ユーザーのメッセージ(+会話履歴・システム指示)をトークン化
  2. 学習済みモデルで トークンを1個ずつ生成(自己回帰)
  3. EOS・最大長・停止条件で終了
  4. 必要なら 検索結果をプロンプトに足したうえで 2〜3 を実行(事前学習のノート

このときユーザーの1回の質問ごとに重みを更新するわけではない(プライバシー・コストの面でも、通常は別設計)。

古典 ML との対比(ラベルと回答文)

線形回帰とロジスティック回帰 でも、

「ラベルを出す」と「人間が読める回答文を出す」は分けて設計される

ことが多い、と整理しています。LLM でも、

  • モデル本体 … トークン列(ラベルに近い内部表現)
  • プロダクト … 表示・多言語・注意書き

という 層の分離 が続きます。

関連