当前位置: 首页 > ai >正文

8.21 随机森林

一、Bagging(Bootstrap Aggregating)
1 机制
• 并行训练:对原始数据做有放回采样(Bootstrap),每棵树用不同子集;
• 随机特征:在每节点分裂时只随机考察 max_features 个特征,进一步去相关;
• 结果聚合:分类任务采用多数投票,回归任务采用均值。

2. 代表算法——随机森林
• 超参数:
n_estimators:森林规模,树越多方差越低但计算量线性增加;
max_depth / min_samples_leaf:控制单棵树复杂度,防过拟合;
max_features:‘sqrt’、‘log2’ 或整数,决定随机特征子集大小;
bootstrap / oob_score:开启袋外估计即可免交叉验证。
• 优点:
a) 高维数据无需显式做特征选择;
b) 训练后可输出 feature_importance,方便业务解释;
c) 天然并行,CPU 多核线性加速;
d) 对异常值和噪声鲁棒,且支持概率输出。
• 缺点:相比单棵决策树,解释性略弱;对超高稀疏特征(文本 TF-IDF 百万维)仍可能内存爆炸。

3. 可视化
rf.estimators_[0]plot_treeexport_graphviz 即可展示单棵树划分路径,帮助业务人员理解模型逻辑。

 二、Boosting
• 代表:AdaBoost、Gradient Boosting、XGBoost、LightGBM、CatBoost。
• 核心:串行训练,每轮加大上一轮错分样本权重(或拟合残差),最终加权投票。
• 优点:偏差低、精度高;缺点:对异常值敏感、训练顺序不可并行。

三、 Stacking
• 两层结构:第一层多个异构基模型(RF、KNN、SVM…)输出概率;第二层用 Logistic Regression / 神经网络把概率再拟合一次。
• 关键点:为防止过拟合,第一层需用交叉验证或 out-of-fold 预测产生元特征。

http://www.xdnf.cn/news/18294.html

相关文章:

  • conda create 报错:Unable to read repodata JSON(镜像 pkgs/free 导致)
  • Neovim clangd LSP 配置出现 “attempt to call field ‘ge‘”
  • C# 13 与 .NET 9 跨平台开发实战(第一章:开发环境搭建与.NET概述-下篇)
  • 鸿蒙中基础耗时分析:Time分析
  • 音视频面试题集锦第 29 期
  • JetBrains Mono字体
  • Vue3组件系统完全指南:从入门到面试通关
  • (第二十期下)超链接的更多分类
  • 血缘元数据采集开放标准:OpenLineage Dataset Facets
  • java开发面试题(提高篇)
  • 大数据毕业设计选题推荐-基于大数据的北京气象站数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
  • JavaScript基础语法five
  • Python学习 -- MySQL数据库的查询及案例
  • 计算两幅图像在特定交点位置的置信度评分。置信度评分反映了该位置特征匹配的可靠性,通常用于图像处理任务(如特征匹配、立体视觉等)
  • redis-缓存-双写一致性
  • git 常用命令整理
  • 【倍增 桶排序】后缀数组
  • 【Java后端】Spring Boot 全局异常处理最佳实践
  • Firefox 142 引入 CRLite 用于私有证书撤销
  • LeetCode热题100--101. 对称二叉树--简单
  • 【clion】visual studio的sln转cmakelist并使用clion构建32位
  • 游戏本不插电源适配器不卡设置教程
  • 数据库架构开发知识库体系
  • Pub/Sub是什么意思
  • 常见的学术文献数据库
  • 好家园房产中介网后台管理完整(python+flask+mysql)
  • 开源的实时 Web 日志分析器GoAccess安装使用指南
  • 【数据结构】快速排序算法精髓解析
  • Vue 3 高性能实践 全面提速剖析!
  • Android 资源替换:静态替换 vs 动态替换