当前位置：首页 > news >正文

2025-05-01-决策树算法及应用

news 2025/6/9 8:50:05

决策树算法及应用

参考资料

GitHub - zhaoyichanghong/machine_learing_algo_python: implement the machine learning algorithms by p(机器学习相关的 github 仓库)
决策树实现与应用
决策树

概述

机器学习算法分类

决策树算法

决策树是一种以树状结构对数据进行划分的分类（Classification）或回归（Regression）模型。其核心思想是：

通过“自上而下”的方式，根据某一特征对样本进行二叉或多叉划分，直至满足停止条件（如纯度高、样本数小于阈值等），构造一棵可解释性高的树形模型。在叶节点输出类别（分类树）或数值（回归树）。

决策树具有以下特点：

易于理解与可视化：生成后以树状图呈现，人类可直观理解每个分类/回归决策过程。
无需大量数据预处理：对数值型与类别型特征均可处理，无需像线性模型那样对特征做严格的标准化、归一化。
自动进行特征选择：在划分过程中会自动选出最能区分正负样本或最能减少误差的特征。

从数据产生决策树的机器学习技术叫做决策树学习，通俗说就是决策树。

一个决策树包含三种类型的节点：

决策节点：通常用矩形框来表示
机会节点：通常用圆圈来表示
终结点：通常用三角形来表示

决策树是一种特殊的树形结构，一般由节点和有向边组成。其中，节点表示特征、属性或者一个类，而有向边包含判断条件。决策树从根节点开始延伸，经过不同的判断条件后，到达不同的子节点。而上层子节点又可以作为父节点被进一步划分为下层子节点。一般情况下，我们从根节点输入数据，经过多次判断后，这些数据就会被分为不同的类别。这就构成了一颗简单的分类决策树。

算法原理

其实决策树算法如同上面场景一样，其思想非常容易理解，具体的算法流程为：

数据准备 → 通过数据清洗和数据处理，将数据整理为没有缺省值的向量。
寻找最佳特征 → 遍历每个特征的每一种划分方式，找到最好的划分特征。
生成分支 → 划分成两个或多个节点。
生成决策树 → 对分裂后的节点分别继续执行 2-3 步，直到每个节点只有一种类别。
决策分类 → 根据训练决策树模型，将预测数据进行分类。

决策树的基本概念

结点类型

根节点 (Root Node)

树的起始节点，包含了整个训练集。

内部节点 (Internal Node)

又称决策节点（Decision Node），表示一个根据某个特征进行划分的测试。

叶节点 (Leaf / Terminal Node)

表示最终的类别（分类树）或数值（回归树）。

分支 (Branch / Edge)

从父节点到子节点的连线，通常对应该节点特征的某个取值或取值范围。

树结构与术语

路径 (Path)：从根节点到某个叶节点所经过的结点序列，即一个完整的决策逻辑分支。
深度 (Depth)：根节点的深度定义为 0，子节点依次递增。树的最大深度称为高度 (Height)。
样本纯度 (Purity)：指一个节点中样本类别的一致性。
比如在分类问题中，若节点仅包含同一类别样本，则称该节点纯度为 1（纯节点）。
叶子样本数 (Leaf Sample Count)：用于限制过拟合，可设定：当某节点样本数不足阈值时，停止划分，将其设为叶节点。
划分停止条件：

所有样本属于同一类别（分类树），或样本方差足够小（回归树）。
树达到最大深度。
节点中样本数量小于某个阈值。
划分后信息增益或基尼系数提升不足阈值。

决策树构建的核心要素

划分指标

决策树的关键在于如何选择最优划分特征与划分点。常见的三种指标为信息增益、信息增益率和基尼不纯度。

信息增益 (Information Gain) ——ID3

设当前节点样本集为 $D$ ，共有 $K$ 个类别 $\{C_1, C_2, \dots, C_K\}$ 。定义：

节点 $D$ 信息熵：

$-\sum_{k=1}^K p_k \log_2 p_k,\quad p_k = \frac{|D_k|}{|D|}$

其中 $D_k|$ 是类别 $C_k$ 在 $D$ 中的样本数。

若使用特征 $A$ 进行划分，且 $A$ 共有 $v$ 个互斥取值 $\{a_1,\dots,a_v\}$ ，则在 $A=a_i$ 处的子集记为 $D_i$ 。

划分后加权平均的信息熵：

$\mid A) = \sum_{i=1}^v \frac{|D_i|}{|D|} H(D_i)$

信息增益：即划分前后熵的减少量：

$\text{Gain}(A) = H(D) - H(D \mid A)$

ID3 算法选择信息增益最大的特征进行划分——即令：

$A^* = \arg\max_{A} \text{Gain}(A)$

缺点：信息增益偏向取值多的特征（类别型变量有大量不同取值时容易过拟合）。

信息增益率 (Gain Ratio) ——C4.5

为克服 ID3 的偏向性，C4.5 引入分裂信息（Split Information）来对信息增益进行归一化：

分裂信息（或称固有信息）：

$\text{SplitInfo}(A) = -\sum_{i=1}^v \frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$

信息增益率：

$\text{GainRatio}(A) = \frac{\text{Gain}(A)}{\text{SplitInfo}(A) + \epsilon}$

通常选择信息增益率最高的特征进行划分。

C4.5 同时支持对连续性（数值型）特征的二元划分：先对候选切分点进行排序，再遍历所有相邻两值中点，选取使增益率最大的切分点。

基尼不纯度 (Gini Impurity) ——CART

CART（Classification And Regression Tree）算法采用基尼不纯度作为划分依据。对于节点 $D$ ，基尼不纯度定义为：

$\mathrm{Gini}(D) = 1 - \sum_{k=1}^K p_k^2, \quad p_k = \frac{|D_k|}{|D|}$

若使用特征 $A$ 将 $D$ 划分为两个子集（CART 传统上构建二叉树），设划分后两部分分别为 $D_\text{left}, D_\text{right}$ ，则划分后的基尼系数为加权平均：

$\mathrm{Gini}(D, A, s) = \frac{|D_\text{left}|}{|D|}\mathrm{Gini}(D_\text{left}) + \frac{|D_\text{right}|}{|D|}\mathrm{Gini}(D_\text{right})$

基尼增益 (Gini Gain)（或称基尼减少量）:

$\Delta \mathrm{Gini}(A, s) = \mathrm{Gini}(D) - \mathrm{Gini}(D, A, s)$

CART 选择使基尼不纯度下降最多（即 $\Delta \mathrm{Gini}$ 最大）的特征和切分点。

CART 区别：

使用基尼而非熵；
通常只考虑二元（yes/no）划分，即每个节点形成左右两个子节点。
对数值型特征遍历所有可能切分点；对类别型特征可先将类别编码为虚拟变量 (One-Hot) 或按某种顺序处理。

特征选择与最佳划分

离散(类别)特征

ID3/C4.5 直接按每个取值划分；CART 需要将 $m$ 个类别先切分为两组（所有可能子集划分），计算基尼并选择最优。

连续（数值）特征

首先对该特征在当前节点的所有样本的取值排序： $x_{(1)} \le x_{(2)} \le \dots \le x_{(n)}$ 。
对每个相邻取值对 ${x_{(i)}, x_{(i+1)}\}$ ，将其中点 $\tfrac{x_{(i)}+x_{(i+1)}}{2}$ 作为候选切分点。
分别计算按 $\le s$ 与 $A > s$ 两部分划分后的信息增益（或基尼减少量），选择最优 $s^*$ 。

递归构建

从根节点开始，对当前节点所有候选特征（及可能的切分点）分别计算划分指标；
选出指标最优的特征/切分点，将样本划分到子节点；
对每个子节点递归执行，同样进行“特征选择 → 划分 → 递归”，直到满足停止条件。

常见决策树算法变体

ID3 （Quinlan，1986）

核心思想：
使用信息增益作为划分标准；
仅适用于离散（类别）特征；
构建多叉树（一个节点可以有多条分支，对应特征的所有取值）。
简易流程：

计算当前节点样本集信息熵 $H (D)$ 。
对每个候选特征 $A$ ，计算信息增益 $\text{Gain}(A)$ 。
选取信息增益最大的特征 $A^*$ ，对该节点进行划分。
递归地对每个子节点执行上述步骤。
递归终止条件：
- 节点样本全属于同一类别（纯度 1）。
- 特征集为空（多数投票决定叶节点类别）。
- 节点样本数小于阈值。

C4.5（Quinlan，1993）

改进点：

支持数值型特征的自动二元划分。
使用信息增益率（Gain Ratio）来选择特征，克服取值多特征的偏向问题。
支持“有缺失值”处理：当样本缺失特征 $A$ 时，按已知特征在其他样本中的分布进行加权。
剪枝：可基于统计检验进行后剪枝，减少过拟合。

流程：

对所有特征计算信息增益率 $\text{GainRatio}(A)$ ，选取最优特征 $A^*$ ；
对于数值型特征，遍历所有候选切分点（相邻排序值中点），计算最佳增益率；
按 $A^*$ 将节点划分；
递归；
在树构建完成后进行后剪枝（可选）。

CART （Breiman 等，1984）

核心思想：
使用基尼不纯度 (Gini) 作为划分标准；
构建二叉树：每个节点仅有 “是/否” 两个分支；
同时支持分类树 (Classification Tree) 和回归树 (Regression Tree)。
分类树流程：

计算当前节点的 $\mathrm{Gini}(D)$ 。
对每个候选特征及其所有可能二元切分点，计算基尼减少量 $\Delta \mathrm{Gini}(A, s)$ 。
选择使 $\Delta \mathrm{Gini}$ 最大的特征与切分点 $A^*, s^*)$ 。
将节点划分为左右子节点；
递归；
剪枝：可使用交叉验证来调节树的复杂度，通过最小化验证误差决定是否剪枝。

回归树流程：
用 MSE（均方误差）或绝对误差作为节点不纯度度量：

$\mathrm{MSE}(D) = \frac{1}{|D|}\sum_{i\in D} (y_i - \bar y)^2,\quad \bar y = \frac{1}{|D|}\sum_{i\in D} y_i$

对数值型特征 $A$ 遍历二元切分点，分别计算左右子集的 MSE 加权平均。
选取使 MSE 降低最多的切分。
剪枝一般使用最小化验证集误差或对叶子节点惩罚复杂度（Cost-Complexity Pruning）。

剪枝 (Pruning)

在决策树中，过深的树容易过拟合训练数据，影响泛化。剪枝是为了提高模型在测试集上的准确性。主要有两种方式：

预剪枝 (Pre-pruning)

在构建树的过程中，提前停止划分，常见策略有：

最小样本数：若节点样本数小于某阈值，停止划分；
最大深度：树深度达到设定上限，停止；
信息增益/基尼减少阈值：若最优划分的增益（或减少量）小于阈值，则不再划分；
统计检验：基于卡方检验等统计检验判定划分是否显著。

优点：减少计算和树的复杂度。
缺点：一旦提前停止，可能错过后续有效划分，导致欠拟合。

后剪枝 (Post-pruning)

先让树尽可能长地生长，然后自底向上裁剪。常见流程：

构建完完全树（直到所有叶节点纯度为 1 或没有更多可划分特征）；
对每个非叶子节点评估以下两种情况哪种在验证集上性能更好：

保留该子树结构；
将其剪为叶节点，并以子树所有样本在该节点的多数类（分类）或平均值（回归）作为输出；

如果剪掉子树后验证误差减少或无显著变化，则保留剪枝操作；否则保留子树；
重复上述过程，直到没有可剪枝节点或验证集误差不再降低。

CART 的 Cost-Complexity Pruning：定义节点惩罚函数

决策树的优缺点

优点

可解释性强

生成后的决策树可视化，人类易于理解和解释每个决策路径。

无须特征归一化

对数值型与类别型特征均可处理，不要求输入特征尺度统一。

自动特征选择

在划分过程中自动评估并选取对分类/回归最有价值的特征。

鲁棒性强

对缺失值可采用“分裂时加权”或“按多数类分配”等策略进行处理；对异常值不敏感。

易于处理多种类型数据

可以同时处理数值、类别以及缺失值。

缺点

容易过拟合

深度过大时对训练数据拟合过度，泛化能力下降。

对噪声敏感

训练数据中的噪声决定划分时可能误导特征选择。

局部最优

由于采用贪心策略（每次只选最优特征），可能无法得到全局最优树。

可用性限制

对高维稀疏数据（如文本）可能效果不佳；容易生成非常深且稀疏的树。

不稳定性

微小的数据变化可能导致决策树结构的大幅改变（当某些样本临界时）。

改进思路：

集成方法：随机森林 (Random Forest)、梯度提升树 (Gradient Boosting Trees，如 XGBoost、LightGBM) 通过集成多棵弱树克服单棵树的易过拟合与不稳定问题。
特征筛选与降维：在高维稀疏场景下，可结合特征工程、特征选择等方法减小特征维度。