当前位置: 首页 > java >正文

决策树的相关理论学习

  • 基本原理:分而治之,基本就是按照树的节点一级一级走下去。

一、划分选择

信息增益

  • 信息熵:如果数据集中第 k 类样本所占的比例为 p_k,则 D 的信息熵为:

\mathrm{Ent}(D)=-\sum_{k=1}^{|y|}p_k\log_2p_k\space.

        \mathrm{Ent}(D)越小, 则 D 的纯度越高

  • 信息增益

\mathrm{Gain}(D,a)=\mathrm{Ent}(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}\mathrm{Ent}(D^v)

        其中 a 是用于划分样本集的离散属性,V 是划分之后产生的分支节点数,D^v 是分支节点在 a 上的取值为 a^v 的样本。信息增益越大,则该属性划分的“纯度”提升越大

增益率

\mathrm{Gain\_ratio}(D,a)=\frac{\mathrm{Gain}(D,a)}{\text{IV}(a)},

        其中

\text{IV(a)}=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}\log_2\frac{|D^v|}{|D|}

:增益率这个准则偏向于可取值数目较少的属性,所以一般是先从划分属性中找出信息增益高于平均水平的属性,然后再从中选择增益率最高的。

基尼指数

  • 基尼值(数据集纯度)

\mathrm{Gini}(D)=\sum_{k=1}^{|y|}\sum_{k'\neq k}p_kp_{k'}=1-\sum_{k=1}^{|y|}p_k^2\space.

        该式子反应的是从数据集中随机抽取两个样本的标记不一致的概率,故该值越小,则数据集的纯度越高

  • 基尼指数

\mathrm{Gini\_index}(D,a)=\sum_{v=1}^{V}\frac{|D^v|}{D}\mathrm{Gini}(D^v).

        一般我们选择基尼指数最小的属性作为最优划分属性;

二、剪枝处理(解决过拟合)

预剪枝

  • 若当前结点划分不能提升性能则停止划分,并标记为叶结点。

后剪枝

  • 后剪枝:先训练一个完整的决策树,再自底向上判断每一个非叶结点,若其变为叶结点能提升性能,那么久将该子树替换为叶结点。

:是否提升性能,使用信息增益准则来判断。

三、连续值、缺失值

连续值处理方式

  • 一般就是正常二分法;连续值类似数值,离散值类似某些名词。

缺失值处理方式

  • 一般都是将确实某属性的某样本划给所有的结点,再将其所在的子结点的属性值调整一下。

四、多变量决策树

  • 分裂节点的时候,可按照多个特征属性来决定结点分支。

http://www.xdnf.cn/news/15286.html

相关文章:

  • 慢慢理解this
  • Dify离线安装包-集成全部插件、模板和依赖组件,方便安可内网使用
  • Matlab批量转换1km降水数据为tiff格式
  • 业务访问控制-ACL与包过滤
  • Qt窗口:QToolBar、QStatusBar、QDockWidget、QDialog
  • vue3 ref vs reactive值的修改
  • es里为什么node和shard不是一对一的关系
  • Git 使用笔记
  • 使用Starrocks替换Clickhouse的理由
  • SPSSPRO:数据分析市场SaaS挑战者的战略分析
  • 香港服务器Python自动化巡检脚本开发与邮件告警集成
  • 【Linux】线程机制深度实践:创建、等待、互斥与同步
  • 网络协议学习思维导图
  • python爬取新浪财经网站上行业板块股票信息的代码
  • java进阶(二)+学习笔记
  • 【算法】递归、搜索与回溯
  • Datawhale AI 夏令营2025科大讯飞AI大赛<夏令营:用AI做带货视频评论分析>
  • [Nagios Core] CGI接口 | 状态数据管理.dat | 性能优化
  • jenkins部署前端vue项目使用Docker+Jenkinsfile方式
  • 【星闪】Hi2821 | SDK开发入门,应用启动流程,创建自己的应用
  • 大模型聊天模板
  • 在人工智能自动化编程时代:AI驱动开发和传统软件开发的分析对比
  • AI 助力:如何批量提取 Word 表格字段并导出至 Excel
  • Infoblox NetMRI 远程命令执行漏洞复现(CVE-2025-32813)
  • C++值类别与移动语义
  • GraphRAG Docker化部署,接入本地Ollama完整技术指南:从零基础到生产部署的系统性知识体系
  • 动物世界一语乾坤韵芳华 人工智能应用大学毕业论文 -仙界AI——仙盟创梦IDE
  • 板凳-------Mysql cookbook学习 (十一--------9)
  • Typecho分类导航栏开发指南:从基础到高级实现
  • axios拦截器