当前位置: 首页 > news >正文

决策树1.1

决策树基础概念


1. 模型定义  
从根节点开始,通过特征判断逐步走到叶子节点完成决策。
功能:支持分类和回归任务,所有数据最终落入叶子节点。

2. 核心结构  
根节点:初始特征选择点  
非叶子节点 & 分支:中间决策过程  
叶子节点:最终决策结果  

关键机制:特征选择与分裂


1. 核心问题 
如何选择根节点及后续节点的特征?  
目标:最大化分类效果,使同类数据尽可能聚集。

2. 衡量标准:熵(Entropy) 
定义:表示随机变量的不确定性(混乱程度)。  
公式:   $$ H(X) = -\sum_{i=1}^{n} p_i \log_2 p_i $$  
熵的特性:  
不确定性最大时(如各类别均匀分布):$H(p)=1$  
完全确定时(如仅一类):$H(p)=0$  

3. 信息增益(Information Gain) 
定义:特征 $X$ 使得类别 $Y$ 不确定性减少的程度。  
目标:选择信息增益最大的特征作为节点(优先降低系统熵值)。  

决策树构建实例:14天打球预测


1. 数据背景 
14天历史数据:9天打球,5天不打球。  
初始系统熵值:$H_{\text{初始}} = 0.940$  
特征:天气(Outlook)等4种环境因素。  

2. 特征分裂计算(以Outlook为例) 
Outlook           天数占比            子集熵值                    加权熵贡献   
Sunny                   5/14                 0.971                        $0.357$     
Overcast              4/14                    0                              $0$         
Rainy                   5/14                 0.971                         $0.357$     
分裂后系统熵:$H_{\text{新}} = 0.693$  
信息增益:$Gain = 0.940 - 0.693 = 0.247$  

3. 节点选择策略  
遍历所有特征,选择信息增益最大的特征作为根节点。  
递归选择后续节点:在剩余特征中继续选取增益最大者。  

决策树训练流程


1. 训练阶段  
从根节点开始,基于信息增益选择特征分裂数据。  
递归分裂直至满足停止条件(如节点数据纯净或特征用完)。  

2. 测试阶段  
新数据从根节点向下遍历,根据特征值选择分支,直至到达叶子节点获得预测结果。  

http://www.xdnf.cn/news/1328005.html

相关文章:

  • 项目一系列-第5章 前后端快速开发
  • 项目管理.管理理念学习
  • react-quill-new富文本编辑器工具栏上传、粘贴截图、拖拽图片将base64改上传服务器再显示
  • LeetCode算法日记 - Day 16: 连续数组、矩阵区域和
  • 第4章 React状态管理基础
  • 算法训练营day56 图论⑥ 108. 109.冗余连接系列
  • 项目过程管理的重点是什么
  • Ansible 角色管理
  • 点大餐饮独立版系统源码v1.0.3+uniapp前端+搭建教程
  • GStreamer无线图传:树莓派到计算机的WiFi图传方案
  • GEO 优化专家孟庆涛:技术破壁者重构 AI 时代搜索逻辑
  • RESTful API 开发实践:淘宝商品详情页数据采集方案
  • Apache IoTDB:大数据时代时序数据库选型的技术突围与实践指南
  • 从0到1认识Rust通道
  • Redis-缓存-击穿-分布式锁
  • 无人机场景 - 目标检测数据集 - 山林野火烟雾检测数据集下载「包含VOC、COCO、YOLO三种格式」
  • 国产!全志T113-i 双核Cortex-A7@1.2GHz 工业开发板—ARM + FPGA通信案例
  • 如何免费给视频加字幕
  • Linux的ALSA音频框架学习笔记
  • Spring AOP 和 Spring 拦截器
  • LeetCode 100 -- Day2
  • JVM垃圾收集器
  • ts 引入类型 type 可以省略吗
  • sfc_os!SfcValidateDLL函数分析之cache文件版本
  • python的社区互助养老系统
  • 【实时Linux实战系列】实时平台下的图像识别技术
  • 微软AD国产化替换倒计时——不是选择题,而是生存题
  • 初识线段树
  • 电影购票+票房预测系统 - 后端项目介绍(附源码)
  • 114. 二叉树展开为链表