当前位置: 首页 > ops >正文

Python 机器学习核心入门与实战进阶 Day 3 - 决策树 随机森林模型实战

✅ 今日目标

  • 理解决策树(Decision Tree)的基本原理
  • 掌握信息熵、基尼系数等分裂标准
  • 使用 DecisionTreeClassifierRandomForestClassifier 构建模型
  • 学会可视化决策树与查看特征重要性
  • 对比单棵树与集成模型(随机森林)的泛化能力

📘 一、决策树模型简介

特性描述
本质以“特征条件”划分决策路径,形成一棵判断树
优点逻辑清晰、可解释性强、不需归一化
缺点易过拟合、对噪声敏感
应用信用评分、规则建模、分类可视化

🧠 二、常用模型 API

决策树:

from sklearn.tree import DecisionTreeClassifierclf = DecisionTreeClassifier(max_depth=3, criterion='gini')
clf.fit(X_train, y_train)

随机森林:

from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

📊 三、评估方式建议

模型适合场景可解释性精度表现
决策树可视化逻辑、规则推理✅ 强中等
随机森林提高精度、降低过拟合中等✅ 强

📈 四、可视化与分析

from sklearn.tree import plot_tree
import matplotlib.pyplot as pltplt.figure(figsize=(10, 6))
plot_tree(clf, feature_names=["成绩", "性别"], class_names=["不及格", "及格"], filled=True)
plt.show()
# 特征重要性
import pandas as pd
importance = rf.feature_importances_
pd.DataFrame({"特征": ["成绩", "性别"], "重要性": importance})

💡 今日思路建议

  1. 构建同样的“是否及格预测”分类数据集
  2. 训练决策树模型,尝试调节 max_depth 查看影响
  3. 训练随机森林模型,查看是否提升性能
  4. 输出特征重要性对比
  5. 可视化决策树结构图

📁 练习脚本:decision_tree_forest_demo.py

# 决策树 & 随机森林实战:预测学生是否及格from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
import matplotlib.pyplot as plt
import numpy as np
import pandas as pdplt.rcParams['font.family'] = 'Arial Unicode MS'  # Mac 用户可用
plt.rcParams['axes.unicode_minus'] = False
# 1. 构造数据
np.random.seed(42)
size = 100
scores = np.random.randint(40, 100, size)
genders = np.random.choice([0, 1], size=size)
labels = (scores >= 60).astype(int)# 标准化成绩 + 性别作为特征
X = np.column_stack(((scores - scores.mean()) / scores.std(), genders))
y = labelsX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 2. 决策树模型
dt_model = DecisionTreeClassifier(max_depth=3, criterion='gini', random_state=42)
dt_model.fit(X_train, y_train)
y_pred_dt = dt_model.predict(X_test)print("=== 决策树模型评估 ===")
print("准确率:", accuracy_score(y_test, y_pred_dt))
print(classification_report(y_test, y_pred_dt))# 决策树可视化
plt.figure(figsize=(10, 6))
plot_tree(dt_model, feature_names=["成绩", "性别"], class_names=["不及格", "及格"], filled=True)
plt.title("决策树可视化")
plt.tight_layout()
plt.show()# 3. 随机森林模型
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)print("\n=== 随机森林模型评估 ===")
print("准确率:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))# 特征重要性对比
feature_importance = rf_model.feature_importances_
features = ["成绩", "性别"]
importance_df = pd.DataFrame({"特征": features, "重要性": feature_importance})
print("\n=== 特征重要性(随机森林) ===")
print(importance_df)

运行输出:
在这里插入图片描述

=== 决策树模型评估 ===
准确率: 1.0precision    recall  f1-score   support0       1.00      1.00      1.00         71       1.00      1.00      1.00        13accuracy                           1.00        20macro avg       1.00      1.00      1.00        20
weighted avg       1.00      1.00      1.00        20
http://www.xdnf.cn/news/14852.html

相关文章:

  • vue 条件渲染(v-if v-else-if v-else v-show)
  • 时域与频域信号特性分析——DFT归一化与双边谱合并分析
  • Kali Linux Wifi 伪造热点
  • SpringBoot:整合quartz实现定时任务-集群化配置
  • 温湿度变送器与电脑进行485通讯连接并显示在触摸屏中(mcgs)
  • Visual Studio 2022 MFC Dialog 添加Toolbar及Tips提示
  • 【算法刷题记录(简单题)002】字符串字符匹配(java代码实现)
  • 补充:问题:CORS ,前后端访问跨域问题
  • Java Go SDK 管理工具与最佳实践
  • 《Java修仙传:从凡胎到码帝》第四章:设计模式破万法
  • PageRank:互联网的马尔可夫链平衡态
  • CSS 文字浮雕效果:巧用 text-shadow 实现 3D 立体文字
  • 【内存】Linux 内核优化实战 - net.ipv4.tcp_tw_reuse
  • springBoot接口层时间参数JSON序列化问题,兼容处理
  • STM32F103RCTx的PWM输出控制电机
  • Matplotlib 安装部署与版本兼容问题解决方案(pyCharm)
  • 共射级放大电路的频率响应Multisim电路仿真——硬件工程师笔记
  • C++11 forward_list 从基础到精通:原理、实践与性能优化
  • 利用 AI 打造的开发者工具集合
  • 高档宠物食品对宠物的健康益处有哪些?
  • Python-GUI-wxPython-布局
  • python打卡day59@浙大疏锦行
  • 应急响应靶场——web3 ——知攻善防实验室
  • docker运行的一些常用命令
  • 使用alist+RaiDrive+webdav将百度夸克网盘变为本地电脑磁盘方法教程
  • 基于led框架及gpiolib管理的驱动编写
  • git教程-pycharm使用tag打标签
  • Mint密室 · 猫猫狐狐的“特征选择”囚室逃脱
  • Adobe Illustrator设置的颜色和显示的颜色不对应问题
  • 同步(Synchronization)和互斥(Mutual Exclusion)关系