当前位置：首页 > news >正文

决策树 GBDT XGBoost LightGBM

news 2025/7/13 23:09:26

一、决策树

1. 决策树有一个很强的假设：

信息是可分的，否则无法进行特征分支

2. 决策树的种类：

2. ID3决策树：

ID3决策树的数划分标准是信息增益：

信息增益衡量的是通过某个特征进行数据划分前后熵的变化量。但是，它没有考虑到特征本身的熵，因此容易偏向于取值较多的特征。

3. C4.5决策树：

C4.5决策树的数划分标准是信息增益比：

信息增益比则是信息增益除以该特征自身的熵（也称为分裂信息）。这种方法旨在纠正信息增益对于取值较多特征的偏爱，通过将信息增益与特征自身的熵相除来惩罚那些拥有大量取值的特征。

C4.5并没有直接偏向于取值少的特征，而是通过分裂信息来调整信息增益，使得特征的基数大小影响其最终的选择概率。这种方式帮助算法避免了仅仅基于信息增益选择特征可能导致的过拟合问题，特别是当存在高基数特征时。

4. CART 回归树和分类树：

回归树：每个子树的输出是该子树节点值的均值：

步骤(1)：选择最优切分变量和切分点

步骤(2)：划分区域并决定输出值

根据特征jj和切分点ss将数据集划分为两个子区域

计算子区域内的样本目标值的平均值作为该区域的预测值

这两个步骤描述了递归地应用上述过程，直到满足停止条件，并最终生成决策树的过程。

5. CART 的参数：

6. CART 训练后的回归树常用属性：

为什么获取树的叶子节点数就可以用于评估泛化能力？

叶子节点数量越多，意味着决策树越复杂。每个叶子节点代表一个具体的预测规则或输出值。如果一棵树的叶子节点过多，说明它可能已经学习了训练数据中的很多细节甚至是噪音，这种现象通常被称为过拟合。过拟合模型在训练集上表现很好，但在未见过的数据（测试集）上的表现较差。

7. 回归树demo展示，可视化回归树：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt# 1. 加载数据
data = load_iris()
X = data.data
y = X[:, 0]  # 用 sepal length 做回归目标# 2. 数据划分
X_train, X_test, y_train, y_test = train_test_split(X[:, 1:], y, test_size=0.2, random_state=42)# 3. 建立模型
reg = DecisionTreeRegressor(max_depth=3, random_state=42)
reg.fit(X_train, y_train)# 4. 模型预测与评估
y_pred = reg.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"\n【模型评估】\n均方误差 MSE: {mse:.4f}")# 5. 打印常用属性
print("\n【模型属性展示】")
print("特征重要性 feature_importances_:", reg.feature_importances_)
print("使用特征数 n_features_in_:", reg.n_features_in_)
print("输出维度数 n_outputs_:", reg.n_outputs_)
print("实际使用的 max_features_:", reg.max_features_)
print("树最大深度 get_depth():", reg.get_depth())
print("叶子节点数 get_n_leaves():", reg.get_n_leaves())# 6. 可视化特征重要性
feature_names = data.feature_names[1:]
plt.figure(figsize=(6, 4))
plt.bar(feature_names, reg.feature_importances_, color='teal')
plt.title("Feature Importances")
plt.ylabel("Importance")
plt.grid(axis='y')
plt.tight_layout()
plt.show()# 7. 可视化树结构
plt.figure(figsize=(10, 6))
plot_tree(reg, feature_names=feature_names, filled=True, rounded=True)
plt.title("Decision Tree Structure")
plt.show()

8. 分类树：

sklearn 的模型参数：

模型属性对比：

demo：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 1. 数据准备
iris = load_iris()
X = iris.data
y = iris.target# 2. 划分数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 构建模型（使用信息增益）
clf = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=42)
clf.fit(X_train, y_train)# 4. 预测与评估
y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f"准确率: {acc:.4f}")# 5. 展示分类专有属性
print("\n【分类树专有属性】")
print("类别标签 classes_:", clf.classes_)
print("类别数量 n_classes_:", clf.n_classes_)
print("每个测试样本的预测概率 predict_proba():\n", clf.predict_proba(X_test[:5]))