当前位置: 首页 > backend >正文

决策树简单实战

一、数据集长这样

有 5 条样本,2 个特征(不浮出水面是否可以生存、是否有脚蹼 ),标签是 属于鱼类,数据如下:

样本不浮出水面是否可以生存是否有脚蹼属于鱼类
1
2
3
4
5

二、核心思路:用 “熵” 找最佳分类特征

决策树靠熵(混乱度)选特征,熵越大数据越乱。我们要找 “分完类后,标签混乱度降最多” 的特征,这一步叫信息增益。

先算 “标签(属于鱼类)” 的熵

标签里  出现 2 次, 出现 3 次,总样本 5 条。
熵公式:H=−∑(pi​×log2​pi​),其中 pi​ 是类别占比。
计算得:属于鱼类(具体计算看之前的步骤,记住这是初始混乱度!)

算特征的 “条件熵”(分完类后的混乱度)

特征 1:不浮出水面是否可以生存

特征值 = :包含样本 1、2、3(共 3 条),标签里  占 2/3, 占 1/3,条件熵 H1​≈0.918。

特征值 = :包含样本 4、5(共 2 条),标签全是 ,条件熵 H2​=0(纯混乱度为 0 )。

条件熵整体:属于鱼类不浮出水面

特征 2:是否有脚蹼

特征值 = :包含样本 1、2、4、5(共 4 条),标签里  占 2/4, 占 2/4,条件熵 H1​=1。

特征值 = :包含样本 3(共 1 条),标签是 ,条件熵 H2​=0。

条件熵整体:属于鱼类是否有脚蹼

特征 “不浮出水面”:0.971−0.551=0.42

特征 “是否有脚蹼”:0.971−0.8=0.171

“不浮出水面是否可以生存” 信息增益更大。

三、总结

决策树靠 “熵” 选特征,一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”

把复杂问题拆成简单判断!

下期再见!

http://www.xdnf.cn/news/18095.html

相关文章:

  • 「数据获取」《防城港市统计年鉴》(2014-2020)(获取方式看绑定的资源)
  • 图像分类精度评价的方法——误差矩阵、总体精度、用户精度、生产者精度、Kappa 系数
  • 详细探讨AI在金融、医疗、教育和制造业四大领域的具体落地案例,并通过代码、流程图、Prompt示例和图表等方式展示这些应用的实际效果。
  • 一套GoldenGate → Kafka → Flink → MySQL 的端到端增量同步方案
  • IDE开发系列(1)基于QT的简易IDE框架设计
  • 3D检测笔记:基础坐标系与标注框介绍
  • 深层语义知识图谱:提升NLP文本预处理效果的关键技术
  • 【P18 3-10】OpenCV Python—— 鼠标控制,鼠标回调函数(鼠标移动、按下、。。。),鼠标绘制基本图形(直线、圆、矩形)
  • 在 PyCharm Notebook 中安装 YOLO
  • Jupyter 中实现交互式图表:ipywidgets 从入门到部署
  • 短剧小程序系统开发:推动短剧行业规范化与标准化发展
  • 01数据结构-交换排序
  • AWS Neptune:图数据库的强大潜力
  • Spring AI RAG 检索增强 应用
  • BPO(Business Process Optimization,业务流程优化)
  • 决策树(1)
  • 【领码课堂】AI写码不再“盲跑”,方案先行,自动化高效落地
  • 数据挖掘 3.5 支持向量机——边界和正则化
  • 深度理解分布式事务——强一致分布式事务解决方案
  • linux-高级IO(中)
  • LINUX 818 shell:random;for for
  • ReactNative开发实战——React Native开发环境配置指南
  • VS Code Copilot 完整使用教程(含图解)
  • LeetCode热题100--226. 翻转二叉树--简单
  • 我们为什么需要时序数据库?
  • Docker学习--认识Docker
  • 基于nvm安装管理多个node.js版本切换使用(附上详细安装使用图文教程+nvm命令大全)
  • 视觉语言导航(6)——Speaker-Follower模型 数据增强 混合学习 CLIP 3.1后半段
  • Vision Master的C#脚本与opencv联合编程
  • 【低空安全】低空安全简介