このページは、決定木やアンサンブルの説明で前提となる データの形 と 用語 を、対話で整理した内容をベースにまとめたものです。アルゴリズム本体は 概要 を参照してください。
学習データの形:行・特徴ベクトル・ラベル
学習データはだいたい 「行=1つの事例(サンプル)」 です。
- 特徴ベクトル(feature vector):その事例について観測できる 入力をまとめたベクトル (\mathbf{x})。次元数 (d)(列の数)だけ成分がある。
- 正解ラベル/クラス:その事例について予測したい 答え。教師あり分類では その行につき通常1つ(後述の多ラベルは別枠)。
関係は 「1事例:(d)次元の特徴ベクトル +(多くの場合)1つのクラス」 です。
よくある誤解:「各特徴に対して (N) 個のクラスがある」「1特徴 : (N) クラス」という関係は ここでは想定していません。特徴量の各成分は 数値やカテゴリなどの観測値 であり、クラスそのものではありません。
「特徴」と「特徴ベクトル」
- 特徴ベクトル… 1事例ぶんの入力を まとめた (\mathbf{x})((d)次元)。
- 特徴(特徴量)… 文脈によって次のどちらかを指します。
- 各次元・各列(属性1つ)… 「この特徴(この列)で木を切る」のときの「特徴」。
- ベクトル全体… 「特徴を抽出する」などと言うときの「特徴」。
決定木の「どの特徴で分割?」は、厳密には 特徴ベクトルのどの次元(どの列)か、および そのしきい値 を選ぶ、という意味です。
BoW(バッグ・オブ・ワーズ)の例
語彙が約5万語なら、1文書あたり 約5万次元のベクトル(各成分=語の出現回数や重みなど)になります。1成分=語彙の1語に対応する次元であり、「特徴が5万個ある」=「列が5万本ある」と読んでもよいです。
分類で二値が前提か、多クラスは扱えるか
二値分類が前提ではありません。 決定木の分類は 2クラス も 3クラス以上 も同じ枠組みで扱えます(葉では多数決や確率など)。説明の例として 正例と負例 と書くことがありますが、それは 2クラスに絞ったときの呼び方 であり、木の数学が二値専用という意味ではありません。
正例と負例
二値分類で、関心のある側を 正(positive)、もう一方を 負(negative) と呼ぶ 慣習 です(例:スパム/非スパム、疾患あり/なし)。「正=善」ではなく、どちらを正に呼ぶかは タスクの定義 です。
葉に落ちたデータの「クラス」と「混ざる」
ここでいう クラス は、その 行(事例)の正解ラベル です。
- 葉に事例が落ちる=木の条件分岐を根から降りて、その葉に到達した、という意味です。
- 混ざる(不純)=そのノード(または葉)に到達した 複数の事例 のうち、正解クラスが複数種類ある状態です。全員同じクラスなら混ざっていません(純)。
不純度と分散(分割の「良さ」)
- 分類木・不純度:そのノードにいる事例の クラスラベルの混ざり具合 を数値化したもの(例:ジニ、エントロピー)。混ざりが大きいほど不純度は高い。「不純度がいちばん減る分割」=分けたあと、子ノード側の不純度(重み付き平均)がいちばん小さくなる切り方、という意味です。分割を試して木を伸ばす具体的手順は 概要 の「学習フェーズの全体の流れ(典型)」を参照してください。
- 回帰木・分散:そのノードにいる事例の 目的変数のばらつき。そろっているほど分散は小さい。「分散がいちばん減る分割」=分けたあと、子側の重み付き平均分散がいちばん小さくなる切り方、という意味です。
単体の木がデータや乱数で形が変わりやすい理由(要約)
- 貪欲な局所最適:全体最適の木ではなく、各ノードで「いまいちばん良い分割」を積み重ねるため、浅い層の分割が少し変わると下の木全体が別物になりやすい。
- スコアの同点付近:候補分割が多く、わずかなデータの違いで「いちばん良い」特徴やしきい値が入れ替わることがある。
- 深い木は分散が大きくなりやすい:訓練サンプルに敏感。
- 実装の乱数:同点の取り方、(設定により)特徴の部分集合から分割を探す、などで乱数が効く場合がある。
正解ラベルは1つか、複数か(単一ラベルと多ラベル)
- 単一ラベル(single-label)(典型):1事例あたり クラスは1つ(多クラス分類でも「猫・犬・鳥のうち1つ」のように 1つだけ)。
- 多ラベル(multi-label):1事例に 複数のラベルが同時に 付きうる(例:1記事に複数タグ)。
多ラベルの表現の一例として、考えうるラベルが (L) 種類あるとき、長さ (L) の 0/1 ベクトル を使う方法があります。第 (k) 成分が 1=「(k) 番目のラベルがその事例に付く」、0=付かない、という意味です((L) 個の独立な付く/付かない を並べたもの)。別の書き方として ラベル番号の集合 ({1,3}) などでも表せます。
古典的な表形式データ+決定木の説明では 単一ラベル を前提にすることが多いです。多ラベルは問題設定・評価指標・モデル設計が変わるため、別枠として扱います。