当前位置: 首页 > news >正文

Day22_【机器学习—集成学习(1)—基本思想、分类】

集成学习(Ensemble Learning) ,是一种机器学习的思想,通过结合多个弱学习器(模型)来构建一个更强大的“强”学习器。其核心思想是“三个臭皮匠,赛过诸葛亮”——多个模型的组合往往比单一模型表现更好、更稳定。

                


一、集成学习的基本思想

  • 单个模型可能存在偏差大(欠拟合)或方差大(过拟合)的问题。
  • 集成学习通过训练多个不同的弱学习器,并将它们的预测结果进行组合(如投票、加权平均等),从而降低整体的泛化误差。
  • 成功的集成要求:个体学习器之间具有多样性(diversity),即它们的错误不完全相关。

二、集成学习的分类

方法训练方式目标典型算法适用场景
Bagging并行降方差随机森林高方差模型、特征多
Boosting串行降偏差AdaBoost, XGBoost欠拟合、精度要求高

1.Bagging

  • 有放回的抽样(bootstrap抽样)产生不同的训练集,从而训练不同的学习器
  • 通过平权投票、多数表决的方式决定预测结果
  • 弱学习器可以并行训练

代表算法:随机森林算法

随机抽样的原因:

如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样。

有放回抽样的原因:

保证弱学习器的训练样本既有交集也有差异数据,更容易发挥投票表决效果

2.Boosting

                        

  • 每一个训练器重点关注前一个训练器不足的地方进行训练
  • 通过加权投票的方式,得出预测结果(预测正确权重降低,预测错误,权重增加)
  • 串行的训练方式

代表算法:Adaboost、XGboost、GBDT算法

3.对比

                

http://www.xdnf.cn/news/1479331.html

相关文章:

  • leetcode 215 数组中的第K个最大元素
  • Jupyter Notebook与cpolar:构建跨地域数据科学协作平台
  • 正态分布 - 计算 Z-Score 的 无偏估计
  • 计算机主板上的那颗纽扣电池的作用是什么?
  • OSG中TerrainManipulator(地形适配操纵器)
  • STM32CubeProgrammer软件安装
  • Qt 中的 Q_OBJECT 宏详解 —— 从源码到底层机制的全面剖析
  • 2023年ASOC SCI2区TOP,改进元启发式算法+考虑医护人员技能水平的家庭健康护理路径规划,深度解析+性能实测
  • 【Redis】缓存的穿透、击穿和雪崩
  • 一个正常的 CSDN 博客账号,需要做哪些基础准备?
  • C++基础知识
  • 《sklearn机器学习——聚类性能指标》Silhouette 系数
  • 用 Hashcat 提取哈希值并找回遗忘的密码:一次实用的尝试
  • 【Big Data】Apache Kafka 分布式流处理平台的实时处理实践与洞察
  • uniapp基础组件概述
  • SPI 三剑客:Java、Spring、Dubbo SPI 深度解析与实践​
  • 【开题答辩全过程】以电商数据可视化系统为例,包含答辩的问题和答案
  • 编辑shell脚本示例练习
  • 《sklearn机器学习——聚类性能指标》Davies-Bouldin Index (戴维斯-博尔丁指数)
  • Linux 96 shell:expect { }
  • 车载通信架构 --- DoIP企业规范中细节有哪些?
  • Huawei C 安全函数库
  • LabVIEW无线预警喷淋系统
  • 问题:指令译码前控制信号还没有产生,那么如何控制译码前指令的动作呢?
  • NV308NV309美光固态闪存NW388NW504
  • Docker部署搜索引擎SearXNG
  • (算法 哈希表)【LeetCode 349】两个数组的交集 思路笔记自留
  • 《云原生故障诊疗指南:从假活到配置漂移的根治方案》
  • Spark 中spark.implicits._ 中的 toDF和DataFrame 类本身的 toDF 方法
  • 【51单片机】【protues仿真】基于51单片机PM2.5空气质量检测系统