当前位置: 首页 > news >正文

【22-决策树】

决策树和树集成 decisiontrees and tree ensembles

决策树定义

决策树的工作原理

例子:猫分类,在一家猫咪收留中心,需要训练一个分类器快速地识别一个动物是否是猫;

输入特征:耳朵形状(尖的pointy 耷拉的floppy);脸形状;胡须whiskers;输出:是否是猫;

image.png

什么是决策树?

使用决策树学习算法对数据集进行训练后得到的模型,看起来像一棵树;树最顶端的叫根节点;椭圆型的叫决策节点,矩形框叫叶节点,用作输出预测结果;

image.png

除了示例的决策树,实际上还存在其他很多种决策树,它们根据每种特征的值做不同的选择,走不同的分支;这些决策树有些在测试数据集上表现地好,有些表现地差。

所以决策树学习算法的任务是,从所有可能的决策树中,选择一个在训练集上表现最好,并且泛化能力较强的决策树。

image.png

如何让算法根据训练集学习一个特定的决策树?

决策树的训练

构建决策树

对于给定一个训练集,构建决策树有几个步骤

1、决定在根节点使用哪个特征,选择在子节点使用哪个特征,然后尽可能将示例数据集全部分开(cat & not cat);

如何选择特征来拆分数据集;选择那些尽可能能将猫和其他动物区分开来的特征;区分之后的纯度尽可能高;

决策树学习算法必须在耳朵形状、脸型、胡须之间做选择,

image.png

熵entropy,如何估计杂质以及最小化杂质;

2、何时停止划分?

当一个节点全部为猫/非猫;

当拆分节点会导致树达到最大深度;节点的深度:从根节点到达该节点所需的步数;

当提高纯度得分超过了阈值;

当节点的示例数量低于某阈值;

限制树的深度:确保树不会太大,便于管理;保持小规模,以避免过拟合;

在一个节点上如何划分

熵,entropy,描述节点不纯度的一种说法;

一组数据全是猫/全不是猫,则纯度很高;

p1:一组中猫占的比例;

当p1 = 0.5时,即一半一半时,不纯度最高;

http://www.xdnf.cn/news/1299133.html

相关文章:

  • 一款开源的远程桌面软件,旨在为用户提供流畅的游戏体验,支持 2K 分辨率、60 FPS,延迟仅为 40ms。
  • 多种适用于 MCU 固件的 OTA 升级方案
  • PHP现代化全栈开发:实时应用与WebSockets实践
  • 智能门锁:安全与便捷的现代家居入口
  • CMake笔记:Alias Target在哪些地方可以使用
  • python的艺术品收藏管理系统
  • [激光原理与应用-267]:理论 - 几何光学 - 胶卷相机的组成和工作原理
  • pytorch学习笔记-Loss的使用、在神经网络中加入Loss、优化器(optimizer)的使用
  • Video-R1论文解读
  • 前端框架选择之争:jQuery与Vue在现代Web开发中的真实地位-优雅草卓伊凡
  • 哈希表特性与unordered_map/unordered_set实现分析
  • 【Linux学习|黑马笔记|Day4】IP地址、主机名、网络请求、下载、端口、进程管理、主机状态监控、环境变量、文件的上传和下载、压缩和解压
  • 将 pdf 转为高清 jpg
  • OpenBMC中C++策略模式架构、原理与应用
  • 设计模式基础概念(行为模式):策略模式
  • c/c++实现 TCP Socket网络通信
  • ASCII与Unicode:编码世界的奥秘
  • 阿里云TranslateGeneral - 机器翻译SDK-自己封账单文件版本—仙盟创梦IDE
  • 机器学习实战篇--TF-IDF实战--名著红楼梦的文本数据处理
  • 亚马逊品牌权力重构:第三方卖家崛起下的竞争生态与系统性应对框架
  • 微信公众号推送文字消息与模板消息
  • 加密货币交易所开发:如何打造安全、高并发的数字资产交易平台?
  • 开源安全云盘存储:Hoodik 实现端到端数据加密,Docker快速搭建
  • 深度学习-卷积神经网络CNN-膨胀卷积、可分离卷积(空间可分离、深度可分离)、分组卷积
  • 【保姆级教程】CentOS 7 部署 FastDFS 全流程(避坑指南)
  • 具身智能Scaling Law缺失:机器人界的“摩尔定律“何时诞生?
  • CVPR 2025 | 机器人操控 | RoboGround:用“掩码”中介表示,让机器人跨场景泛化更聪明
  • 3D商品展示:技术狂欢下的普及困局
  • DataHub OPC Gateway:实现OPC UA与OPC DA无缝集成的高性能网关
  • 【代码随想录day 20】 力扣 108.将有序数组转换为二叉搜索树