指示・対話とアライメントとは

このページは、事前学習のあと に行われる 指示チューニング（SFT） や アライメント を、初学者向けに短く整理するノートです。生テキストだけの学習は事前学習とファインチューニング、RNN から続く「出力の作り方」は埋め込み・隠れ状態・学習と出力を参照してください。

ざっくりいうと

事前学習 … 記事・小説など 次トークン が主役（プロンプト／回答ペアは不要）。
指示チューニング … 「指示（プロンプト）＋望ましい回答」 のペアで、「質問にはこう答える」形に寄せる。
アライメント（RLHF など） … 複数候補を人間が順位付けし、丁寧さ・安全性・有用さ を調整。
一般ユーザーが使うチャット … 上記を経た 振る舞い ＋（任意）推論時の検索。

なぜ「プロンプトと回答」が後から要るか

事前学習だけでは、モデルはだいたい 「続きのトークンを予測する」 ことに強くなります。
ユーザーが期待する 「質問に答える」「短く説明する」「拒否する」 などは、別データで明示的に教える 段階が必要です。

段階	データの形	目的
A. 事前学習	生テキスト列	言語・知識・コードの土台
B. 指示チューニング（SFT）	指示 + 望ましい回答	対話・指示追従の形式
C. アライメント	順位付き回答など	好ましい振る舞い・安全

回答のないプロンプトだけ では、B の 「この指示にはこの返答」 は学べません（正解の返答テキストが教師信号にならない）。

指示データはどこから来るか

由来	内容
人間が書いた Q&A	アノテータ・契約業者が作成
モデル補助 + 人間検証	下書きを人が直す
公開の指示データセット	研究・オープンデータ（利用条件に注意）

ネット上の掲示板（質問と返信が同じページ）を 1本のテキスト として事前学習に入れることはありますが、チャット製品向けの指示データ として整えるのは、多くは B で別途用意 します。

EOS・文の終わりと「答えが完成したか」

埋め込み・隠れ状態・学習と出力で述べたとおり、

EOS … 学習データ上の 系列終端（文・発話の切れ目で出しやすい）。
タスクの完了 … 「質問に十分答えた」こととは別軸。

指示チューニングでは、

回答例の 長さ・構成・拒否の仕方
プロンプトでの 「3段落で」「わからなければそう書いて」

などで、早すぎる EOS や短すぎる回答 を減らす方向に寄せます。それでも 最大長での打ち切り や モデルの誤判断 は起こり得ます。

推論時（ユーザーがチャットするとき）

ユーザーのメッセージ（＋会話履歴・システム指示）をトークン化
学習済みモデルで トークンを1個ずつ生成（自己回帰）
EOS・最大長・停止条件で終了
必要なら 検索結果をプロンプトに足したうえで 2〜3 を実行（事前学習のノート）

このときユーザーの1回の質問ごとに重みを更新するわけではない（プライバシー・コストの面でも、通常は別設計）。

古典 ML との対比（ラベルと回答文）

線形回帰とロジスティック回帰でも、

「ラベルを出す」と「人間が読める回答文を出す」は分けて設計される

ことが多い、と整理しています。LLM でも、

モデル本体 … トークン列（ラベルに近い内部表現）
プロダクト … 表示・多言語・注意書き

という 層の分離 が続きます。

関連