当前位置: 首页 > news >正文

评测系统构建

合成数据更“科研驱动”,强调 controllability 和 generalization evaluation:
之前往往直接采用经典数据集如OGB和OGB-large提供的经典数据集和数据划分思路
该思想从现有真实数据中学习参数,再构造类似但分布略异的数据集,验证模型泛化性能。(Large-Scale Synthetic Graph Dataset Generation Framework; MLG2023 KDD Workshop),在生成时调节各项参数以更全面的反映模型性能
graphworld则是提供了一个完全合成的数据集来反省模型效果(作者成为fake data)

NeurIPS 2024 Datasets and Benchmarks Track 更“产业/应用驱动”,强调 task relevance 和 community standard:
DrivAerNet++ 多模态汽车数据集,结合计算流体力学模拟与深度学习基准,用于自动驾驶研究。
DomainGallery 少样本图像生成数据集,强调属性驱动的微调方法。
Bench2Drive 封闭式端到端自动驾驶任务的多能力基准测试框架。
FEDMEKI 联邦学习场景下的医学基础模型扩展基准,注重知识注入。
GTSinger 面向歌唱任务的全球多技术语料库,包含真实音乐分数。
SolarCube 卫星与地面观测融合的大规模太阳能预测数据集。
CARE 酶分类与检索任务的基准套件,支持生物信息学研究。
VRSBench 面向遥感图像理解的多模态视觉语言基准数据集。
Sim2Real-Fire 森林火灾预测与回溯的多模态模拟数据集。
SciInstruct 科学语言模型训练用的自反式指令注释数据集。
HelpSteer 2 用于训练奖励模型的开源数据集,支持对齐与安全性研究。
WildPPG 长时间连续记录的真实世界脉搏波数据集,支持健康监测。
CRAG 综合检索增强生成(RAG)任务的基准数据集。
CVQA 多文化多语言视觉问答基准,覆盖全球多种语言与文化背景。
MMM-RS 多模态、多分辨率、多场景遥感图像生成基准。
UrbanDataLayer 城市科学研究的统一数据处理管道,支持多源数据融合。
DrivingDojo Dataset 交互式、知识丰富的自动驾驶世界模型数据集。

专门的NeurIPS 2024 Track Datasets and Benchmarks中:

DevBench 面向语言学习的多模态发展性基准,关注儿童语言习得过程
MedCalc-Bench 医学计算能力评估基准,用于测试 LLM 在医学推理中的表现
PRISM Alignment Dataset 多文化人类反馈数据集,用于研究 LLM 的主观性与对齐问题(best paper)
Brain Treebank 基于自然语言刺激的大规模脑电记录数据集,连接语言与神经活动
ChaosBench 用于气候预测的物理建模基准,支持多通道季节性预测任务
OpenMathInstruct-1 包含180万条数学指令的微调数据集,提升 LLM 数学能力
Embodied Agent Interface 用于评估 LLM 在具身决策任务中的表现,连接语言与行动
AgentBoard 多轮 LLM Agent 的分析性评估平台,支持行为与策略分析
LINGOLY 奥林匹克级语言推理题库,涵盖濒危语言与低资源语言
A Taxonomy of Challenges to Curating Fair Datasets 公平数据集构建挑战的系统分类,关注偏见与代表性问题

我们关注的是泛化与稳健性,不只是某个具体应用,同时 参考 DB Track 的设计理念,可以从 synthetic dataset generation 切入

http://www.xdnf.cn/news/1317799.html

相关文章:

  • 43.安卓逆向2-补环境-使用unidbg(使用Smali语法调用方法和使用方法地址调用方法)
  • 问津集 #5:Crystal: A Unified Cache Storage System for Analytical Databases
  • LangChain 多任务应用开发
  • 向量数据库基础和实践 (Faiss)
  • PyCharm与前沿技术集成指南:AI开发、云原生与大数据实战
  • 【FreeRTOS】刨根问底6: 应该如何防止任务栈溢出?
  • linux中已经启用的命令和替代命令
  • Honor of Kings 101star (S40) 2025.08.17
  • 开发者说 | EmbodiedGen:为具身智能打造可交互3D世界生成引擎
  • ICCV 2025 | Reverse Convolution and Its Applications to Image Restoration
  • GitLab CI/CD、Jenkins与GitHub Actions在Kubernetes环境中的方案对比分析
  • 多维视角下离子的特性、应用与前沿探索
  • C#读取文件, IO 类属性及使用示例
  • 为何她总在关键时“失联”?—— 解密 TCP 连接异常中断
  • tcp会无限次重传吗
  • 前端vue3+后端spring boot导出数据
  • 《设计模式》工厂方法模式
  • 【CV 目标检测】Fast RCNN模型②——算法流程
  • 代码随想录算法训练营四十四天|图论part02
  • 【Luogu】每日一题——Day21. P3556 [POI 2013] MOR-Tales of seafaring (图论)
  • 上网行为组网方案
  • 数据结构03(Java)--(递归行为和递归行为时间复杂度估算,master公式)
  • Mac(五)自定义鼠标滚轮方向 LinearMouse
  • Linux软件编程:进程与线程(线程)
  • JVM学习笔记-----StringTable
  • Docker Compose 安装 Neo4j 的详细步骤
  • PostgreSQL导入mimic4
  • go基础学习笔记
  • k8s集群搭建一主多从的jenkins集群
  • Win11 文件资源管理器预览窗格显示 XAML 文件内容教程