当前位置：首页 > backend >正文

决策树简单实战

backend 2025/8/26 0:02:30

一、数据集长这样

有 5 条样本，2 个特征（不浮出水面是否可以生存、是否有脚蹼），标签是属于鱼类，数据如下：

样本	不浮出水面是否可以生存	是否有脚蹼	属于鱼类
1	是	是	是
2	是	是	是
3	是	否	否
4	否	是	否
5	否	是	否

二、核心思路：用 “熵” 找最佳分类特征

决策树靠熵（混乱度）选特征，熵越大数据越乱。我们要找 “分完类后，标签混乱度降最多” 的特征，这一步叫信息增益。

先算 “标签（属于鱼类）” 的熵

标签里 是 出现 2 次，否 出现 3 次，总样本 5 条。
熵公式：H=−∑(pi×log2pi)，其中 pi 是类别占比。
计算得：属于鱼类（具体计算看之前的步骤，记住这是初始混乱度！）

算特征的 “条件熵”（分完类后的混乱度）

特征 1：不浮出水面是否可以生存

特征值 = 是：包含样本 1、2、3（共 3 条），标签里 是 占 2/3，否 占 1/3，条件熵 H1≈0.918。

特征值 = 否：包含样本 4、5（共 2 条），标签全是 否，条件熵 H2=0（纯混乱度为 0 ）。

条件熵整体：属于鱼类不浮出水面

特征 2：是否有脚蹼

特征值 = 是：包含样本 1、2、4、5（共 4 条），标签里 是 占 2/4，否 占 2/4，条件熵 H1=1。

特征值 = 否：包含样本 3（共 1 条），标签是 否，条件熵 H2=0。

条件熵整体：属于鱼类是否有脚蹼

特征 “不浮出水面”：0.971−0.551=0.42

特征 “是否有脚蹼”：0.971−0.8=0.171

“不浮出水面是否可以生存” 信息增益更大。

三、总结

决策树靠 “熵” 选特征，一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”

把复杂问题拆成简单判断！

下期再见!

查看全文

http://www.xdnf.cn/news/18095.html

「数据获取」《防城港市统计年鉴》（2014-2020）（获取方式看绑定的资源）

图像分类精度评价的方法——误差矩阵、总体精度、用户精度、生产者精度、Kappa 系数

详细探讨AI在金融、医疗、教育和制造业四大领域的具体落地案例，并通过代码、流程图、Prompt示例和图表等方式展示这些应用的实际效果。

一套GoldenGate → Kafka → Flink → MySQL 的端到端增量同步方案

IDE开发系列（1）基于QT的简易IDE框架设计

3D检测笔记：基础坐标系与标注框介绍

深层语义知识图谱：提升NLP文本预处理效果的关键技术

【P18 3-10】OpenCV Python—— 鼠标控制，鼠标回调函数（鼠标移动、按下、。。。），鼠标绘制基本图形（直线、圆、矩形）

在 PyCharm Notebook 中安装 YOLO

Jupyter 中实现交互式图表：ipywidgets 从入门到部署

短剧小程序系统开发：推动短剧行业规范化与标准化发展

01数据结构-交换排序

AWS Neptune：图数据库的强大潜力

Spring AI RAG 检索增强应用

BPO（Business Process Optimization，业务流程优化）

决策树（1）

【领码课堂】AI写码不再“盲跑”，方案先行，自动化高效落地

数据挖掘 3.5 支持向量机——边界和正则化

深度理解分布式事务——强一致分布式事务解决方案

linux-高级IO（中）

LINUX 818 shell:random；for for

ReactNative开发实战——React Native开发环境配置指南

VS Code Copilot 完整使用教程（含图解）

LeetCode热题100--226. 翻转二叉树--简单

我们为什么需要时序数据库？

Docker学习--认识Docker

基于nvm安装管理多个node.js版本切换使用（附上详细安装使用图文教程+nvm命令大全）

视觉语言导航（6）——Speaker-Follower模型数据增强混合学习 CLIP 3.1后半段

Vision Master的C#脚本与opencv联合编程

【低空安全】低空安全简介

一、数据集长这样

二、核心思路：用 “熵” 找最佳分类特征

三、总结

相关文章：