当前位置: 首页 > java >正文

机器学习之决策树模型:从基础概念到条件类型详解

机器学习之决策树模型:从基础概念到条件类型详解

摘要:本文深入探讨决策树模型的概念、构成以及不同条件类型。首先介绍决策树的基本结构和工作原理,随后详细阐述轴心对齐条件与倾斜条件、二元条件与非二元条件的差异及应用场景,并通过示例分析展示决策树在分类和回归任务中的实际应用,最后简要提及 YDF 代码在决策树训练中的使用方法。

决策树基础

决策森林模型由多个决策树组成,像随机森林这样的决策森林学习算法在一定程度上依赖于决策树的学习过程。在研究小型示例数据集时,我们可以了解如何训练单个决策树,进而学会组合决策树以训练决策森林。

决策树由一系列以树形结构分层排列的“问题”组成,这些问题也称为条件、分块或测试,在本文中统称为 “条件”。每个非叶节点包含一个条件,而每个叶节点包含一个预测结果。决策树通常从顶部的根节点向下生长。

图 1:简单分类决策树

graph TDA[根节点] --> B[num_legs ≥ 3?]B --> C[num_eyes ≥ 3?]B --> D[否]C --> E[是]C --> F[否]E --> G[狗]F --> H[猫]D --> I[鱼]

图 2:示例推理路径

{num_legs : 4, num_eyes : 2} 为例,推理路径以叶节点 dog 为终点:

graph TDA[根节点] --> B[num_legs ≥ 3?]B --> C[num_eyes ≥ 3?]C --> D[否]D --> E[狗]

图 3:数值预测决策树

graph TDA[根节点] --> B[num_legs ≥ 3?]B --> C[num_eyes ≥ 3?]B --> D[否]C --> E[是]C --> F[否]E --> G[可爱程度得分: 8]F --> H[可爱程度得分: 5]D --> I[可爱程度得分: 3]

决策树条件类型

轴心对齐条件与倾斜条件

轴心对齐条件仅涉及单个特征项,例如 num_legs ≥ 2。倾斜条件则涉及多个特征项,比如 num_legs ≥ num_fingers。通常,决策树使用轴对齐条件进行训练,但倾斜条件能表达更复杂模式,可能带来更好结果,不过训练和推理成本更高。在 YDF 中,决策树默认使用轴对齐条件,可通过 split_axis="SPARSE_OBLIQUE" 参数启用倾斜树。

图 4:条件类型示例

特征空间
轴对齐条件
倾斜条件
简单分割
复杂分割

图 5:特征空间分离示例

特征空间
轴对齐条件分割
倾斜条件分割
简单分离
复杂分离

二元条件与非二元条件

具有两个可能结果的条件是二元条件,仅含二元条件的决策树称为二元决策树。非二元条件有多种可能结果,区分能力更强,包含非二元条件的树称为非二元决策树。但过于强大的条件易过拟合,决策森林通常使用二元决策树。

图 6:决策树类型

决策树
二元决策树
非二元决策树
二元条件
非二元条件

常见二进制条件类型

最常见的条件类型是阈值条件,表示为 feature ≥ threshold,如 num_legs ≥ 2。其他常见二元条件类型包括:

名称条件示例
阈值条件( feature_i \geq threshold )num_legs ≥ 2
等式条件( feature_i = value )species = ‘cat’
在组合中的条件( feature_i \in collection )species ∈ {‘cat’, ‘dog’, ‘bird’}
倾斜条件( \sum_i weight_i feature_i \geq threshold )5 num_legs + 2 num_eyes ≥ 10
缺少功能( feature_i ) is Missingnum_legs is Missing

YDF 代码示例

在 YDF 中,可使用 CART 学习器训练决策树模型:

import ydf
model = ydf.CartLearner(label="my_label").train(dataset)
http://www.xdnf.cn/news/5836.html

相关文章:

  • 【WIN】笔记本电脑忘记密码解决办法/笔记本电脑重装系统笔记/bitlocker忘记密码的解决办法
  • UDS诊断----------$27诊断服务
  • BFS算法篇——从晨曦到星辰,BFS算法在多源最短路径问题中的诗意航行(上)
  • 3.1 泰勒公式出发点
  • 人脸识别门禁系统技术文档
  • 运行Spark程序-在shell中运行 --SparkConf 和 SparkContext
  • Hadoop和Spark生态系统
  • Java详解LeetCode 热题 100(15):LeetCode 189. 轮转数组(Rotate Array)详解
  • 跨境电商定价革命:亚马逊“逆向提价“策略背后的价值重构逻辑
  • 鸿蒙接入flutter环境变量配置windows-命令行或者手动配置-到项目的创建-运行demo项目
  • (七)深度学习---神经网络原理与实现
  • 在VirtualBox中安装虚拟机后不能全屏显示的问题及解决办法
  • 软考 系统架构设计师系列知识点之杂项集萃(58)
  • 基于Java和PostGIS的AOI面数据球面面积计算实践
  • Kaamel隐私合规洞察:Facebook美容定向广告事件分析
  • Docker环境下的Apache NiFi安装实践踩坑记录
  • 蓝桥杯 16. 外卖店优先级
  • 数据结构——例题1
  • 基于Qt的app开发第八天
  • C++设计模式——单例模式
  • 微信小程序 自定义图片分享-绘制数据图片以及信息文字
  • React系列——HOC高阶组件的封装与使用
  • 使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第十二讲)
  • (2)python开发经验
  • 下周,Coinbase将被纳入标普500指数
  • windows c++ (9) 程序内注册服务并修改登录账户
  • 使用 `aiohttp` 构建高效的异步网络爬虫系统
  • 一次讲清 FP32 / FP16 / BF16 / INT8 / INT4
  • VR和眼动控制集群机器人的方法
  • 青少年编程与数学 02-019 Rust 编程基础 10课题、函数、闭包和迭代器