当前位置: 首页 > news >正文

【AI面试】分类模型 之 随机森林

【AI面试】分类模型 之 随机森林


🌟 嗨,你好,我是 青松 !

🌈 自小刺头深草里,而今渐觉出蓬蒿。


NLP Github 项目推荐:

  • 【大模型(LLMs)面试笔记】:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题 🎉🎉🎉


文章目录

      • 1. 介绍一下随机森林?
        • 思想:Bagging
        • 原理
        • 影响因素
        • 特征 m 的选择
      • 2. 随机森林的过拟合如何解决?
      • 3. 随机怎了如何处理缺失值?
      • 4. 什么是 OOB?


1. 介绍一下随机森林?

思想:Bagging
  • 思想:总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而提高准确度。因为有些是不好的样本,相当于噪声,模型学入噪声后会使准确度不高。
  • 举例:假设有1000个样本,如果按照以前的思维,是直接把这1000个样本拿来训练,但现在不一样,先抽取800个样本来进行训练,假如噪声点是这800个样本以外的样本点,就很有效的避开了。重复以上操作,提高模型输出的平均值。
原理

随机森立是 Bagging 的优化版本。其包含的思想在于: 随机选择样本数建立多个训练集并随机选取特征集合,根据多个训练集与特征集合来建立多颗决策树,然后进行投票决策。

随机森林的最终目的是建立 m 颗决策树,而每颗决策树的建立过程如下:

  • 如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集中的抽取N个训练样本,作为该树的训练集。
  • 如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的
  • 每棵树都尽最大程度的生长,并且没有剪枝过程。

随机森林中的随性性指的是:数据采样的随机性与特征采用的随机性。 这两个随机性的引入对随机森林的分类性能直观重要,它们使得随机森林不容易陷入过拟合,且具有很好的抗噪能力。

影响因素
  • 森林中任意两棵树的相关性: 相关性越大,错误率越大
  • 森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。
特征 m 的选择

m 是随机森林中唯一的一个参数。

  • 减小特征选择个数m,树的相关性和分类能力也会相应的降低
  • 增大m,两者也会随之增大。

2. 随机森林的过拟合如何解决?

通过交叉验证来调整树的数量。

3. 随机怎了如何处理缺失值?

  • 首先,给缺失值预设一些估计值, 如平均数,中位数等
  • 然后,根据估计的数值,建立随机森林,把所有的数据放进随机森林里面跑一遍。记录每一组数据在决策树中一步一步分类的路径.
  • 判断哪组数据和缺失数据路径最相似,引入一个相似度矩阵,来记录数据之间的相似度,比如有N组数据,相似度矩阵大小就是N*N
  • 如果缺失值是类别变量,通过权重投票得到新估计值,如果是数值型变量,通过加权平均得到新的估计值,如此迭代,直到得到稳定的估计值。

4. 什么是 OOB?

OOB 即 out-of-bag , 又称袋外数据。 这是由于 Bagging 方法会采用 Boostrap 进行抽样, 每次约有 1 3 \frac{1}{3} 31 的样本不会出现在抽样后的样本集合中,那么就把这 1 3 \frac{1}{3} 31 的样本称为袋外数据 oob(out-of-bag)。由于 oob 没有用于训练决策树,因此可用于后续对该决策树的泛化能力评估。

http://www.xdnf.cn/news/89245.html

相关文章:

  • UWB定位技术在钢铁厂行业中的创新应用与价值实践
  • Linux:简单自定义shell
  • Unity使用反射进行Protobuf(CS/SC)协议,json格式_002
  • Python 常用Web框架对比
  • 乐视系列玩机---乐视2 x620 x628等系列线刷救砖以及刷写第三方twrp 卡刷第三方固件步骤解析
  • Spring 中 @Component, @Repository, @Service的区别
  • 电商场景下Elasticsearch集群与分片(Sharding)的ELK安装配置指南
  • qemu如何支持vpxor %xmm0,%xmm0,%xmm0(百度AI)
  • ACI multipod 一、组网概要
  • 【自然语言处理与大模型】如何知道自己部署的模型的最大并行访问数呢?
  • 「数据可视化 D3系列」入门第十二章:树状图详解与实践
  • Docker 快速入门教程
  • XPath 介绍
  • Ubuntu与Linux的关系
  • Linux虚拟机中 编译Linux源码 记录
  • 给 20GB 文件“排排坐”——详解外部排序
  • 鸿蒙NEXT开发定位工具类 (WGS-84坐标系)(ArkTs)
  • ios开发中xxx.debug.dylib not found
  • MySQL终章(8)JDBC
  • OpenCV --- 图像预处理(六)
  • 小白工具视频转MPG, 功能丰富齐全,无需下载软件,在线使用,超实用
  • 基于Spring Security 6的OAuth2 系列之二十六 - 终章
  • 2537. 统计好子数组的数目
  • AI深度伪造视频用于诈骗的法律定性与风险防范
  • 【Vue】路由管理(Vue Router)
  • Java ByteBuf解析和进制转换汇总
  • Spark-SQL 项目
  • Linux安装后无法启动24天
  • 数据集 | 柑橘果目标检测数据集
  • 大数据开发的基本流程