当前位置：首页 > ds >正文

决策树-信息增益（第二十三节课内容总结）

ds 2025/8/19 7:54:36

决策树

从根节点开始一步步走到叶子节点（决策），所有的数据最终都会落到叶子节点，既可以做分类也可以做回归

熵

用于衡量数据集的不确定性或混乱程度

熵的计算公式如下：

其中

H(D) 是数据集 D 的熵

pi 是数据集中第 i 类样本所占的比例

n 是数据集中类别的总数

熵的值越高，表示数据集的不确定性越大

信息增益

通过选择某个属性来分割数据集

其中：

IG(D,A) 是属性 A 对数据集 D 的信息增益

H(D) 是数据集 D 的熵

H(D∣A) 是在属性 A 的条件下，数据集 D 的条件熵

条件熵 H(D∣A) 的计算公式如下

其中：

Values(A) 是属性 A 所有可能的取值。

Dv 是在属性 A 取值为 v 时，数据集 D 的子集。

∣Dv∣ 是子集 Dv 中样本的数量。

∣D∣ 是数据集 D 中样本的总数。

计算信息增益实例：

计算信息增益:

数据集中有5个样本，其中2个属于鱼类（是），3个不属于鱼类（否）

熵的计算公式为：

其中 pi 是第 i 类的概率。

对于这个数据集：

2. 计算每个属性的条件熵

属性1：不浮出水面是否可以生存

是：3个样本，其中2个是鱼类，1个不是

否：2个样本，都不是鱼类

条件熵 H(D∣A) 计算如下：

其中 H(D1) 和 H(D2) 分别是“是”和“否”条件下的熵。

属性2：是否有脚蹼

是：4个样本，其中2个是鱼类，2个不是

否：1个样本，不是鱼类

3. 计算信息增益

信息增益 IG(A) 和 IG(B) 分别为：

IG(A)=H(D)−H(D∣A)=0.971−0.551=0.420

IG(B)=H(D)−H(D∣B)=0.971−0.8=0.171

综上所述：属性“不浮出水面是否可以生存”的信息增益最大，为0.420

http://www.xdnf.cn/news/18279.html

相关文章：

第2章：进阶篇——第2节：索引

从决策树基础到熵与信息增益

PYTHON让繁琐的工作自动化-函数

【DL学习笔记】交叉熵损失函数详解

人工智能包括哪些方面内容？

minio安装和配置

大数据时代时序数据库选型指南：深度解析与 Apache IoTDB 实践

国产！全志T113-i 双核Cortex-A7@1.2GHz 工业开发板—ARM + DSP、RISC-V核间通信开发案例

MiniMax Agent 上线 Market Place ，AI一键复制克隆网站

如何解决IDEA/Datagrip无法连接数据库的问题：解决方法为添加参数-Djava.net.preferIPv4Stack=true

Image and Video Tokenization with Binary Spherical Quantization 论文阅读

【网络运维】Playbook项目实战：基于 Ansible Playbook 一键部署 LNMP 架构服务器

WPF---数据模版

突破成长瓶颈：产品运营能力体系化提升技巧

CentOS 7更换国内镜像源

广州曼顿智能断路器：让用电更聪明，生活更安心！

【案例分享】AI使用分享｜如何运用 GPT完成小任务并提升效率 —— Prompt 与案例整理

P2404 自然数的拆分问题（典型的dfs）

【运维进阶】实施任务控制

【计算机网络面试】键入网址到网页显示期间，发生了什么？

MySQL定时任务详解 - Event Scheduler 事件调度器从基础到实战

第三十九天(WebPack构建打包Mode映射DevTool源码泄漏识别还原)

数据结构：二叉搜索树（Binary Search Tree）

Android Studio中创建Git分支

高级堆结构

编排之神-Kubernetes存储专题--ConfigMap演练

网络编程3（网络层，数据链路层）

linux下timerfd和posix timer为什么存在较大的抖动？