当前位置: 首页 > ops >正文

机器学习sklearn:不纯度与决策树构建

不纯度与决策树构建

  1. 不纯度概念

    • 决策树通过不纯度指标来选择最佳分割节点和分枝方式

    • 不纯度衡量节点中样本类别的混杂程度

    • 不纯度越低,节点中样本类别越纯净,拟合效果越好

  2. 常用不纯度指标

    • 信息熵(Entropy):基于信息论的概念,衡量不确定性(这个比基尼系数让树的生长更加细腻,拟合程度高)

    • 基尼系数(Gini Index):计算随机抽样时分类错误的概率(默认是这个)

  3. 节点分裂原则

    • 选择使子节点不纯度降低最多的特征进行分裂

    • 子节点的不纯度总是低于父节点

    • 叶子节点的不纯度是最低的

剪枝与防止过拟合

  1. 过拟合风险

    • 完全生长的决策树会对训练数据拟合得非常好(不纯度很低)

    • 但可能导致树结构过于复杂,泛化能力差

  2. 剪枝方法

    • 预剪枝:在树完全生长前限制

      • 限制最大深度(max_depth)

      • 设置最小样本分裂数(min_samples_split)

      • 设置叶子节点最小样本数(min_samples_leaf)

    • 后剪枝:先让树完全生长,然后剪去不重要的分支

  3. 剪枝效果

    • 减少树的复杂度

    • 提高模型泛化能力

    • 防止对训练数据的过度拟合

http://www.xdnf.cn/news/16488.html

相关文章:

  • Python Pandas.merge_ordered函数解析与实战教程
  • 网络编程概述与UDP编程
  • Faiss 向量数据库详解
  • Redis反弹Shell
  • 【Java基础面试题】Java特点,八种基本数据类型
  • 《Java 程序设计》第 8 章 - Java 常用核心类详解
  • 用了Flutter包体积增大就弃用Flutter吗?包体积与开发效率,这两者之间如何权衡?
  • 设计模式实战:自定义SpringIOC(亲手实践)
  • 【VUE3】搭建项目准备工作
  • 04动手学深度学习(下)
  • 【SpringMVC】MVC中Controller的配置 、RestFul的使用、页面重定向和转发
  • 图论(BFS)构造邻接表(运用队列实现搜索)
  • 【动态规划 | 路径问题】动态规划方法:解决路径问题的最佳策略
  • Java学习-----JVM的垃圾回收算法
  • mac电脑如何关闭防火墙
  • Datawhale AI夏令营记录
  • 第二十二节 MATLAB转置向量、MATLAB追加向量
  • v4l2_ctrl_handler_setup()函数详解
  • JavaWeb 新手学习路线:从零到全栈开发,系统掌握企业级 Web 开发技能
  • 智能制造--EAP设备自动化程序
  • Ubuntu “apt”安装
  • 搜索引擎高级搜索指令大全(Google、百度等浏览器通用)
  • 枚举策略模式实战:优雅消除支付场景的if-else
  • ANSYS Products 2025 R2 安装配置全流程教程(图文详解)
  • Kafka 顺序消费实现与优化策略
  • 【智慧物联网平台】编译jar环境 Linux 系统编译IOT物联网——仙盟创梦IDE
  • MySQL SQL性能优化与慢查询分析实战指南:新手DBA成长之路
  • 接口测试核心概念与实践指南
  • Error reading config file (/home/ansible.cfg): ‘ACTION_WARNINGS(default) = True
  • ABP Framework + EF Core 迁移命令失败问题完整解决记录