当前位置: 首页 > ds >正文

决策树-信息增益(第二十三节课内容总结)

决策树

从根节点开始一步步走到叶子节点(决策), 所有的数据最终都会落到叶子节点,既可以做分类也可以做回归

用于衡量数据集的不确定性或混乱程度

熵的计算公式如下:

其中

H(D) 是数据集 D 的熵

pi​ 是数据集中第 i 类样本所占的比例

n 是数据集中类别的总数

熵的值越高,表示数据集的不确定性越大

信息增益

通过选择某个属性来分割数据集

其中:

IG(D,A) 是属性 A 对数据集 D 的信息增益

H(D) 是数据集 D 的熵

H(D∣A) 是在属性 A 的条件下,数据集 D 的条件熵

条件熵 H(D∣A) 的计算公式如下

其中:

Values(A) 是属性 A 所有可能的取值。

Dv​ 是在属性 A 取值为 v 时,数据集 D 的子集。

∣Dv​∣ 是子集 Dv​ 中样本的数量。

∣D∣ 是数据集 D 中样本的总数。

计算信息增益实例:

计算信息增益:

数据集中有5个样本,其中2个属于鱼类(是),3个不属于鱼类(否)

熵的计算公式为:

其中 pi​ 是第 i 类的概率。

对于这个数据集:

2. 计算每个属性的条件熵

属性1:不浮出水面是否可以生存

是:3个样本,其中2个是鱼类,1个不是

否:2个样本,都不是鱼类

条件熵 H(D∣A) 计算如下:

其中 H(D1​) 和 H(D2​) 分别是“是”和“否”条件下的熵。

属性2:是否有脚蹼

是:4个样本,其中2个是鱼类,2个不是

否:1个样本,不是鱼类

3. 计算信息增益

信息增益 IG(A) 和 IG(B) 分别为:

IG(A)=H(D)−H(D∣A)=0.971−0.551=0.420

IG(B)=H(D)−H(D∣B)=0.971−0.8=0.171

综上所述:属性“不浮出水面是否可以生存”的信息增益最大,为0.420

http://www.xdnf.cn/news/18279.html

相关文章:

  • 第2章:进阶篇——第2节:索引
  • 从决策树基础到熵与信息增益
  • PYTHON让繁琐的工作自动化-函数
  • 【DL学习笔记】交叉熵损失函数详解
  • 人工智能包括哪些方面内容?
  • minio安装和配置
  • 大数据时代时序数据库选型指南:深度解析与 Apache IoTDB 实践
  • 国产!全志T113-i 双核Cortex-A7@1.2GHz 工业开发板—ARM + DSP、RISC-V核间通信开发案例
  • MiniMax Agent 上线 Market Place ,AI一键复制克隆网站
  • 如何解决IDEA/Datagrip无法连接数据库的问题:解决方法为添加参数-Djava.net.preferIPv4Stack=true
  • MySQL的锁:
  • Image and Video Tokenization with Binary Spherical Quantization 论文阅读
  • 【网络运维】Playbook项目实战:基于 Ansible Playbook 一键部署 LNMP 架构服务器
  • WPF---数据模版
  • 突破成长瓶颈:产品运营能力体系化提升技巧
  • CentOS 7更换国内镜像源
  • Golang context
  • 广州曼顿智能断路器:让用电更聪明,生活更安心!
  • 【案例分享】AI使用分享|如何运用 GPT完成小任务并提升效率 —— Prompt 与案例整理
  • P2404 自然数的拆分问题(典型的dfs)
  • 【运维进阶】实施任务控制
  • 【计算机网络面试】键入网址到网页显示期间,发生了什么?
  • MySQL定时任务详解 - Event Scheduler 事件调度器从基础到实战
  • 第三十九天(WebPack构建打包Mode映射DevTool源码泄漏识别还原)
  • 数据结构:二叉搜索树(Binary Search Tree)
  • Android Studio中创建Git分支
  • 高级堆结构
  • 编排之神-Kubernetes存储专题--ConfigMap演练
  • 网络编程3(网络层,数据链路层)
  • linux下timerfd和posix timer为什么存在较大的抖动?