当前位置: 首页 > news >正文

机器学习(决策树)

基础概念​

定义​

树形结构模型:从​​根节点​​开始,通过特征选择分支路径,最终到达​​叶子节点​​(决策结果)。

功能​​:适用于分类与回归任务。

​组成结构​

组件作用示例
根节点首个特征选择点数据集的初始划分特征
非叶子节点/分支中间决策过程根据特征值继续分支
叶子节点最终决策结果分类标签/回归值

​训练与测试流程​

训练阶段​​:从训练集构造树结构(核心:​​特征选择与切分​​)。

测试阶段​​:新样本从根节点遍历至叶子节点,直接输出结果。

核心问题​

关键难点​​:如何选择每个节点的特征及切分方式?
​解决思路​​:通过​​量化指标​​衡量特征对分类结果的贡献,选择最优特征(如根节点选分类能力最强的特征)。

熵与信息增益​

熵(Entropy)

定义​​:衡量随机变量的不确定性(数据混乱程度)。

公式​​:H(X)=−i=1∑n​pi​log2​pi​

pi​:第 i类样本在数据集中的占比。

​熵的特性​​:

熵值越大 → 数据越混乱(不确定性高)。

熵值越小 → 数据越纯净(确定性高)。

​示例​​:

集合 A [1,1,1,1,1,1,1,1,2,2]:熵值低(主要类别为1)。确定性高

集合 B [1,2,3,4,5,6,7,8,9,1]:熵值高(类别分散)。

当p=0或p=1时,H(p)=0,随机变量完全没有不确定性

当p=0.5时,H(p)=1,此时随机变量的不确定性最大

​信息增益

定义​​:特征 X使得类别 Y的不确定性减少的程度(提升分类“专一性”)。

​公式​​:Gain(D,A)=H(D)−H(D∣A)

H(D):划分前数据集的熵。

H(D∣A):按特征 A划分后的​​条件熵​​(加权平均子集熵)。

计算

特征:4种环境变化

计算​信息增益最大的假设为大当家(与标签相关性最大的数据)其次为二当家,以此类推。

play混杂程度是最大的因此我们需要先计算play的熵值

第一步:假设outlook为大当家,面有三种情况,为sunny,overcast,rainy

sunny:有5天其中两天是yes,3天是no(yes与no是看play中的之后的情况相同)

overcast:4天yes

rainy:3天yes2天no

5/14是指sunny总天气在play中占的比例

其中H(sunny)算出来就是0.971

以此类推算其它三个值用H(D)-H(其它三个算出的熵值),这就计算出来了它们各自的​信息增益。

比较大小最大的为大当家。

第二步:算二当家的,是在算大当家的分类基础上在分类,比如outlook是大当家,我们计算temperature

这是我们的H(D)就为H(outlook)

我们在已经分好的这个类中继续划分天气为sunny时temperature有三种情况hot、cool、mild

hot在有2no ; mild有1no、1yes ; cool有1yes

http://www.xdnf.cn/news/1323001.html

相关文章:

  • VLN视觉语言导航(3)——神经网络的构建和优化 2.3
  • 理解AQS的原理并学习源码
  • 大厂 | 华为半导体业务部2026届秋招启动
  • Spark 运行流程核心组件(三)任务执行
  • 【lucene】tip文件详解
  • 08.常见文本处理工具
  • 基于Spring Boot+Vue的社区便民服务平台 智慧社区平台 志愿者服务管理
  • 咨询进阶——解读咨询顾问技能模型
  • QT 字节大小端转序方法
  • axure chrome 浏览器插件的使用
  • kafka的pull的依据
  • 关系型数据库与非关系型数据库
  • 冒泡排序——简单理解和使用
  • 嵌入式第三十一天(线程间的机制,IPC机制)
  • JAVA经典面试题:数据库调优
  • rust 从入门到精通之变量和常量
  • 从 ORA-12703 到顺利入库:Go + Oracle 11g GBK 字符集踩坑记20250818
  • [免费]基于Python的全国气象数据采集及可视化大屏系统(Flask+request库)【论文+源码+SQL脚本】
  • elasticsearch-集成prometheus监控(k8s)
  • 【LeetCode题解】LeetCode 74. 搜索二维矩阵
  • 【深度长文】Anthropic发布Prompt Engineering全新指南
  • IDE开发系列(2)扩展的IDE框架设计
  • 【音视频】瑞芯微、全志芯片在运动相机和行车记录仪产品分析
  • mybatis连接数据库
  • Kafka 零拷贝(Zero-Copy)技术详解
  • 数据赋能(401)——大数据——持续学习与优化原则
  • RAG 入门指南:从概念到最小系统搭建
  • 基于Android的随身小管家APP的设计与实现/基于SSM框架的财务管理系统/android Studio/java/原生开发
  • 从0-1使用Fastmcp开发一个MCP服务,并部署到阿里云百炼 -持续更新中
  • Flutter 自定义 Switch 切换组件完全指南