当前位置: 首页 > news >正文

强化学习常用数据集

强化学习常用数据集

  • 数学推理数据集
    • 数值标签
      • GSM8K(2021 OpenAI)
  • 问答数据集

在LLM场景下进行强化学习训练的时候,时常会涉及到各种各样的数据集,容易记不住,因此开个帖子记录一下。可采取的分类方法有很多,这里直接按照领域和标签的类型进行层次划分。

数学推理数据集

数值标签

GSM8K(2021 OpenAI)

由Openai在2021年提出的,包括约8500个小学数学问题(小学数学词汇水平)。
下载地址:https://huggingface.co/datasets/openai/gsm8k
论文地址:https://arxiv.org/pdf/2110.14168
下面是论文中给出的三个例子,其中红色用<<>>扩起来的是对具体计算过程的注释。
最终的final answer是对于问题最终答案结果的注释。
在这里插入图片描述
但是,在观察实际数据的时候如下:

其中对于计算过程的注释没问题,用:<<>>
对于最终答案的注释,在实际的数据集中:用`#### `后的内容表示

在这里插入图片描述

问答数据集

http://www.xdnf.cn/news/1281547.html

相关文章:

  • 【11-计算机视觉介绍】
  • RAG所存在的问题和解决方案
  • 贪心----3. 跳跃游戏 II
  • 2438. 二的幂数组中查询范围内的乘积
  • 零基础AI编程开发微信小程序赚流量主广告实战
  • MySQL高可用改造之数据库开发规范(大事务与数据一致性篇)
  • Kubernetes生产环境健康检查自动化指南
  • SQL复杂查询
  • Java AI生成长篇小说的实用
  • 基于大数据的个性化学习环境构建的研究与应用
  • Flutter Provider 状态管理全面解析与实战应用:从入门到精通
  • libwebsockets 服务端获取过代理的真实连接IP
  • 重学React(五):脱围机制一
  • 使用Windbg分析多线程死锁项目实战问题分享
  • 金蝶云星空 × SRM 深度集成实战(附完整接口清单)
  • 两个Maven工程,使用idea开发,工程A中依赖了工程B,改了工程B,工程A如何获取最新代码
  • Java学习 -- 可变参数与Collections工具类
  • 基于数据结构用java实现二叉树的排序器
  • Java项目基本流程(三)
  • 【SpringBoot】持久层 sql 注入问题
  • 第六十一章:AI 模型的“视频加速术”:Wan视频扩散模型优化
  • Spring Boot文件下载功能实现详解
  • 每日算法刷题Day61:8.11:leetcode 堆11道题,用时2h30min
  • 第十六届蓝桥杯大赛青少组 C++ 省赛真题解析(2025年8月10日)
  • (25.08)Ubuntu20.04复现KISS-ICP
  • 【k8s】k8s中的几个概念性问题
  • Spring MVC 注解参数接收详解:@RequestBody、@PathVariable 等区别与使用场景
  • 亚马逊广告底层逻辑重构:从流量博弈到价值创造的战略升维
  • 爬虫与数据分析入门:从中国大学排名爬取到数据可视化全流程
  • Python网络爬虫(一) - 爬取静态网页