前提と用語（決定木を読む前に）

このページは、決定木やアンサンブルの説明で前提となる データの形 と用語を、対話で整理した内容をベースにまとめたものです。アルゴリズム本体は概要を参照してください。

学習データの形：行・特徴ベクトル・ラベル

学習データはだいたい 「行＝1つの事例（サンプル）」 です。

特徴ベクトル（feature vector）：その事例について観測できる 入力をまとめたベクトル (\mathbf{x})。次元数 (d)（列の数）だけ成分がある。
正解ラベル／クラス：その事例について予測したい答え。教師あり分類では その行につき通常1つ（後述の多ラベルは別枠）。

関係は 「1事例：(d)次元の特徴ベクトル＋（多くの場合）1つのクラス」 です。

よくある誤解：「各特徴に対して (N) 個のクラスがある」「1特徴 : (N) クラス」という関係は ここでは想定していません。特徴量の各成分は 数値やカテゴリなどの観測値 であり、クラスそのものではありません。

「特徴」と「特徴ベクトル」

特徴ベクトル… 1事例ぶんの入力を まとめた (\mathbf{x})（(d)次元）。
特徴（特徴量）… 文脈によって次のどちらかを指します。
- 各次元・各列（属性1つ）… 「この特徴（この列）で木を切る」のときの「特徴」。
- ベクトル全体… 「特徴を抽出する」などと言うときの「特徴」。

決定木の「どの特徴で分割？」は、厳密には 特徴ベクトルのどの次元（どの列）か、および そのしきい値 を選ぶ、という意味です。

BoW（バッグ・オブ・ワーズ）の例

語彙が約5万語なら、1文書あたり 約5万次元のベクトル（各成分＝語の出現回数や重みなど）になります。1成分＝語彙の1語に対応する次元であり、「特徴が5万個ある」＝「列が5万本ある」と読んでもよいです。

分類で二値が前提か、多クラスは扱えるか

二値分類が前提ではありません。 決定木の分類は 2クラス も 3クラス以上 も同じ枠組みで扱えます（葉では多数決や確率など）。説明の例として 正例と負例 と書くことがありますが、それは 2クラスに絞ったときの呼び方 であり、木の数学が二値専用という意味ではありません。

正例と負例

二値分類で、関心のある側を 正（positive）、もう一方を 負（negative） と呼ぶ慣習です（例：スパム／非スパム、疾患あり／なし）。「正＝善」ではなく、どちらを正に呼ぶかは タスクの定義 です。

葉に落ちたデータの「クラス」と「混ざる」

ここでいう クラス は、その 行（事例）の正解ラベル です。

葉に事例が落ちる＝木の条件分岐を根から降りて、その葉に到達した、という意味です。
混ざる（不純）＝そのノード（または葉）に到達した 複数の事例 のうち、正解クラスが複数種類ある状態です。全員同じクラスなら混ざっていません（純）。

不純度と分散（分割の「良さ」）

分類木・不純度：そのノードにいる事例の クラスラベルの混ざり具合 を数値化したもの（例：ジニ、エントロピー）。混ざりが大きいほど不純度は高い。「不純度がいちばん減る分割」＝分けたあと、子ノード側の不純度（重み付き平均）がいちばん小さくなる切り方、という意味です。分割を試して木を伸ばす具体的手順は概要の「学習フェーズの全体の流れ（典型）」を参照してください。
回帰木・分散：そのノードにいる事例の 目的変数のばらつき。そろっているほど分散は小さい。「分散がいちばん減る分割」＝分けたあと、子側の重み付き平均分散がいちばん小さくなる切り方、という意味です。

単体の木がデータや乱数で形が変わりやすい理由（要約）

貪欲な局所最適：全体最適の木ではなく、各ノードで「いまいちばん良い分割」を積み重ねるため、浅い層の分割が少し変わると下の木全体が別物になりやすい。
スコアの同点付近：候補分割が多く、わずかなデータの違いで「いちばん良い」特徴やしきい値が入れ替わることがある。
深い木は分散が大きくなりやすい：訓練サンプルに敏感。
実装の乱数：同点の取り方、（設定により）特徴の部分集合から分割を探す、などで乱数が効く場合がある。

正解ラベルは1つか、複数か（単一ラベルと多ラベル）

単一ラベル（single-label）（典型）：1事例あたり クラスは1つ（多クラス分類でも「猫・犬・鳥のうち1つ」のように 1つだけ）。
多ラベル（multi-label）：1事例に 複数のラベルが同時に 付きうる（例：1記事に複数タグ）。

多ラベルの表現の一例として、考えうるラベルが (L) 種類あるとき、長さ (L) の 0/1 ベクトル を使う方法があります。第 (k) 成分が 1＝「(k) 番目のラベルがその事例に付く」、0＝付かない、という意味です（(L) 個の独立な付く／付かない を並べたもの）。別の書き方として ラベル番号の集合 ({1,3}) などでも表せます。

古典的な表形式データ＋決定木の説明では 単一ラベル を前提にすることが多いです。多ラベルは問題設定・評価指標・モデル設計が変わるため、別枠として扱います。