当前位置：首页 > ds >正文

司南评测集社区 4 月上新一览

ds 2025/7/4 6:59:16

司南评测集社区 CompassHub 作为司南评测体系的重要组成部分，旨在打造创新性的基准测试资源导航社区，提供丰富、及时、专业的评测集信息，帮助研究人员和行业人士快速搜索和使用评测集。

2025 年 4 月，司南评测集社区新收录了一批评测基准，覆盖多模态、智能体等方向。以下为部分新增评测集的介绍,欢迎大家下载使用。

司南评测集社区链接：

https://hub.opencompass.org.cn/home

WorldScore

发布单位：

Stanford University

发布时间：

2025-04-01

评测集简介：

WorldScore 是用于世界生成的统一基准测试，包括一个精选数据集，其中包含 3000 个测试示例，包含静态和动态、室内和室外、逼真和风格化复杂的世界场景，并通过可控性、质量和动态性这三个关键方面评估生成的世界。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/WorldScore

RUListening

发布单位：

University of California, etc.

发布时间：

2025-04-01

评测集简介： RUListening 是一个在音乐质量保证基准中增强感知评估的框架，通过引入和利用感知指数（PI）量化指标来生成具有挑战性的干扰项。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/RUListening

FortisAVQA

发布单位：

Hong Kong University, etc.

发布时间：

2025-04-02

评测集简介：

FortisAVQA 是一个旨在评估 AVQA 模型稳健性的数据集。它的构建涉及两个关键过程：改写和拆分。改写修改了 MUSIC-AVQA 测试集中的问题以增强语言多样性，从而减少模型对关键问题术语和答案之间虚假相关性的依赖。拆分需要将问题自动合理地分类为频繁（head）和罕见（tail）子集，从而能够更全面地评估模型在分布内和分布外场景中的性能。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/FortisAVQA

GPT-ImgEval

发布单位：

Peking University, Sun Yat-sen University, etc.

发布时间：

2025-04-03

评测集简介：

GPT-ImgEval 从三个关键维度对 GPT-4o 图像生成和编辑的性能进行定量和定性评测：生成质量、编辑能力、以及基于世界知识的语义合成能力。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/GPT-ImgEval

StyleRec

发布单位：

University of Central Florida

发布时间：

2025-04-06

评测集简介：

StyleRec 是一个包含了 10,193 个实例的提示恢复基准数据集，通过严格的构建技术确保了质量和多样性。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/StyleRec

PaperBench

发布单位：

OpenAI

发布时间：

2025-04-07

评测集简介：

PaperBench 是一个评估 AI 智能体复现最新 AI 研究的基准测试。智能体必须从头开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、开发代码库和成功执行实验。PaperBench 并将每个复现任务分层分解为具有明确评分标准的更小的子任务，总共包含 8,316 个可单独评分的任务。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/PaperBench

S-Eval

发布单位：

Zhejiang University & Alibaba

发布时间：

2025-04-07

评测集简介：

S-Eval 旨在成为一个新的全面、多维度和开放式的安全评估基准。截至目前，S-Eval 共有 22 万个评估提示（仍在积极扩充中），包括 2 万个基础风险提示（其中 1 万个为中文，1 万个为英文）和从 10 种高级越狱攻击中派生的 20 万个对应攻击提示。这些测试提示基于一个包含四个级别、8 个风险维度和总共 102 个风险子类别的全面统一的风险分类法生成，专门设计用于涵盖 LLM 安全评估的所有关键维度，旨在准确反映 LLMs 在这些风险维度上的各种安全水平。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/S-Eval

FEABench

发布单位：

Google Research,Harvard University

发布时间：

2025-04-08

评测集简介：

FEABench 是一个用于评估大型语言模型和 LLM 智能体使用有限元分析（FEA）模拟和解决物理、数学及工程问题能力的基准测试。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/FEABench

ColorBench

发布单位：

University of Maryland, College Park

发布时间：

2025-04-10

评测集简介：

ColorBench 是一个创新且精心设计的基准测试，旨在评估 VLMs 在颜色理解方面的能力，包括颜色感知、推理和鲁棒性。通过精心策划一系列多样化的测试场景，并基于实际应用，ColorBench 评估了这些模型如何感知颜色、从基于颜色的线索中推断意义，以及在不同的颜色变换下保持一致的性能。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/ColorBench

AgentRewardBench

发布单位：

McGill University，Mila Quebec AI Institute，etc.

发布时间：

2025-04-11

评测集简介：

AgentRewardBench 是用于评估大型语言模型作为评判者评估 Web 智能体的有效性的基准测试，包含来自 5 个基准测试和 4 个大型语言模型的 1302 条轨迹。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/AgentRewardBench

SCAM

发布单位：

BLISS e.V.,Berliner Hochschule für Technik (BHT),etc.

发布时间：

2025-04-11

评测集简介：

SCAM 是一个规模宏大且内容丰富的现实世界印刷攻击图像数据集，包含数百个对象类别和攻击词汇的 1,162 张图像。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/SCAM

MLRC-Bench

发布单位：

University of Michigan，LG AI Research，University of Illinois

发布时间：

2025-04-13

评测集简介：

MLRC-Bench 旨在量化大模型智能体如何有效地应对具有挑战性的机器学习研究竞赛。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/MLRC-Bench

C-FAITH

发布单位：

PKU

发布时间：

2025-04-14

评测集简介：

C-FAITH，一个中文 QA 幻觉基准，由从网络抓取中获得的 1,399 份知识文档创建，总共 60,702 个条目。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/C-FAITH

MIEB

发布单位：

Durham University，Zendesk，etc.

发布时间：

2025-04-14

评测集简介：

MIEB 是一个大规模图像嵌入基准，用于系统性评估图像及图文嵌入模型的性能，涵盖了 130 个单独的任务，这些任务分为 8 个高级类别。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/MIEB

LLM-SRBench

发布单位：

VinUniversity, Carnegie Mellon University, etc.

发布时间：

2025-04-14

评测集简介：

LLM-SRBench 是一个全面的基准测试，包含四个科学领域的 239 个具有挑战性的问题，专门设计用于评估基于 LLM 的科学方程发现方法。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/LLM-SRBench

AgMMU

发布单位：

Rice University,Carnegie Mellon University,etc.

发布时间：

2025-04-14

评测集简介：

AgMMU 是一个多模态知识密集型数据集，具有农业领域数据的专长。视觉-语言模型（VLMs）必须观察图像的细节并提供事实准确的答案。通过现实世界的用户-专家对话实现，AgMMU 包含 3390 个开放式问题（OEQs）用于事实性问题，5793 个多项选择题（MCQs）类似于传统的视觉-语言基准，以及一个包含 205,399 条事实的农业知识库，用于模型微调。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/AgMMU