当前位置: 首页 > news >正文

机器学习——XGBoost

XGBoost是迄今为止最常用的决策树集成决策树实现方法的一种算法,它运行快速,开源实现容易使用,也被非常成功地用于赢得许多机器学习比赛。

给定一个大小为m的训练集,重复B次,使用有放回抽样创建一个大小为m的新训练集,然后在新的数据集上训练决策树,因此第一次通过这个循环时,我们可能会像这样创建一个训练集,并像这样训练决策树,这里是我们要改变算法的地方,也就是每次通过这个循环,除了第一次,会有第二次、第三次,以此类推,在抽样时,不是以相同的概率选择每个训练样本,而是将以更高的概率选择那些在我们目前构建的树集合中表现较差的样本。但是第二次通过这个循环时,不是从所有m个样本中以相同的概率选择,让我们更有可能选择之前训练的树分类错误的样本或者之前训练的树表现不佳的样本

我们将更多的注意力放在尚未处理好的例子子集上,并用新的决策树,构建集成来尝试处理这些问题。具体来说,我们会查看刚刚构建的决策树并回到原始训练集,注意是原始训练集,不是通过某种方式或替换生成的训练集,我们会查看所有的这10个例子,并查看这个学习的决策树对这10个例子的预测,所以第四列是它们的预测结果,在每个例子后边打✅,这取决于树的分类是否正确,所以在第二次循环中,我们会使用有放回的抽样来重新生成。另一个包含10个例子的训练集,每次从这10个例子中选取一个例子时,更有可能从这三个仍然分类错误的例子中挑选,所以这会让第二棵决策树通过一种类似可以练习的过程关注这些例子,这种提升过程将总共执行B次。在每次迭代中,你会查看第1棵树的集成结果,以此类推,当你构建第B棵树时,更有可能选择那些之前构建的树集成仍然分类错误的例子,增加选择这个例子而不是那个例子的概率相当,但是不需要担心这些细节来使用提升树的实现。

在各种实现提升的方法中,目前使用最广泛的是XGBoost,代表极端梯度提升,这是一个非常快速且高效的开源提升树实现,XGBoost还提供了默认的分裂标准和停止分裂的标准XGBoost的一项创新是内置了正则化以防止过拟合。XGBoost实际上会为不同的训练样本分配不同的权重,所以它实际上不需要生成大量随机选择的训练集,这就使得它比使用有放回抽样程序更高效一些

http://www.xdnf.cn/news/889993.html

相关文章:

  • 【Emgu CV教程】11.2、Canny边缘检测
  • 【计组】真题 2015 大题
  • ModuleNotFoundError No module named ‘torch_geometric‘未找到
  • windows VeraCrypt – 磁盘加密工具
  • Python实例题:Python计算二元二次方程组
  • Life:Internship finding
  • RMSE可以融合均值与标准差
  • 核货宝订货平台源码:构建高效智能订货系统,驱动企业数字化转型
  • Nature Methods | OmiCLIP:整合组织病理学与空间转录组学的AI模型
  • win32相关(远程线程和远程线程注入)
  • React 第五十四节 Router中useRevalidator的使用详解及案例分析
  • Next打包导出静态文件(纯前端),不要服务器端(node), 隐藏左下角调试模式
  • Conda 基本使用命令大全
  • 数据库优化实战分享技术文章大纲
  • Qt 开发中的父类与父对象的区别和父对象传递:如何选择 `QWidget` 或 `QObject`?
  • Palo Alto Networks Expedition存在命令注入漏洞(CVE-2025-0107)
  • dvwa11——XSS(Reflected)
  • 视频爬虫的Python库
  • 鸿蒙Next开发真机调试签名申请流程
  • Qt/C++学习系列之QGroupBox控件的简单使用
  • 【TinyWebServer】线程同步封装
  • Raw Denoising 论文,以及如何制作noisy-clean图像对
  • AI问答-vue3+ts+vite:http://www.abc.com:3022/m-abc-pc/#/snow 这样的项目 在服务器怎么部署
  • 亲测解决self.transform is not exist
  • vscode里如何用git
  • TIA博途中的程序导出为PDF格式的具体方法示例
  • [zynq] Zynq Linux 环境下 AXI BRAM 控制器驱动方法详解(代码示例)
  • MYSQL(三)--服务器启动参数与配置
  • 群晖NAS如何在虚拟机创建飞牛NAS
  • ABP VNext 在 Kubernetes 中的零停机蓝绿发布