司南评测集社区 4 月上新一览
司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打造创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。
2025 年 4 月,司南评测集社区新收录了一批评测基准,覆盖多模态、智能体等方向。以下为部分新增评测集的介绍,欢迎大家下载使用。
司南评测集社区链接:
https://hub.opencompass.org.cn/home
WorldScore
发布单位:
Stanford University
发布时间:
2025-04-01
评测集简介:
WorldScore 是用于世界生成的统一基准测试,包括一个精选数据集,其中包含 3000 个测试示例,包含静态和动态、室内和室外、逼真和风格化复杂的世界场景,并通过可控性、质量和动态性这三个关键方面评估生成的世界。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/WorldScore
RUListening
发布单位:
University of California, etc.
发布时间:
2025-04-01
评测集简介: RUListening 是一个在音乐质量保证基准中增强感知评估的框架,通过引入和利用感知指数(PI)量化指标来生成具有挑战性的干扰项。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/RUListening
FortisAVQA
发布单位:
Hong Kong University, etc.
发布时间:
2025-04-02
评测集简介:
FortisAVQA 是一个旨在评估 AVQA 模型稳健性的数据集。它的构建涉及两个关键过程:改写和拆分。改写修改了 MUSIC-AVQA 测试集中的问题以增强语言多样性,从而减少模型对关键问题术语和答案之间虚假相关性的依赖。拆分需要将问题自动合理地分类为频繁 (head) 和罕见 (tail) 子集,从而能够更全面地评估模型在分布内和分布外场景中的性能。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/FortisAVQA
GPT-ImgEval
发布单位:
Peking University, Sun Yat-sen University, etc.
发布时间:
2025-04-03
评测集简介:
GPT-ImgEval 从三个关键维度对 GPT-4o 图像生成和编辑的性能进行定量和定性评测:生成质量、编辑能力、以及基于世界知识的语义合成能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/GPT-ImgEval
StyleRec
发布单位:
University of Central Florida
发布时间:
2025-04-06
评测集简介:
StyleRec 是一个包含了 10,193 个实例的提示恢复基准数据集,通过严格的构建技术确保了质量和多样性。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/StyleRec
PaperBench
发布单位:
OpenAI
发布时间:
2025-04-07
评测集简介:
PaperBench 是一个评估 AI 智能体复现最新 AI 研究的基准测试。智能体必须从头开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库和成功执行实验。PaperBench 并将每个复现任务分层分解为具有明确评分标准的更小的子任务,总共包含 8,316 个可单独评分的任务。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/PaperBench
S-Eval
发布单位:
Zhejiang University & Alibaba
发布时间:
2025-04-07
评测集简介:
S-Eval 旨在成为一个新的全面、多维度和开放式的安全评估基准。截至目前,S-Eval 共有 22 万个评估提示(仍在积极扩充中),包括 2 万个基础风险提示(其中 1 万个为中文,1 万个为英文)和从 10 种高级越狱攻击中派生的 20 万个对应攻击提示。这些测试提示基于一个包含四个级别、8 个风险维度和总共 102 个风险子类别的全面统一的风险分类法生成,专门设计用于涵盖 LLM 安全评估的所有关键维度,旨在准确反映 LLMs 在这些风险维度上的各种安全水平。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/S-Eval
FEABench
发布单位:
Google Research,Harvard University
发布时间:
2025-04-08
评测集简介:
FEABench 是一个用于评估大型语言模型和 LLM 智能体使用有限元分析(FEA)模拟和解决物理、数学及工程问题能力的基准测试。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/FEABench
ColorBench
发布单位:
University of Maryland, College Park
发布时间:
2025-04-10
评测集简介:
ColorBench 是一个创新且精心设计的基准测试,旨在评估 VLMs 在颜色理解方面的能力,包括颜色感知、推理和鲁棒性。通过精心策划一系列多样化的测试场景,并基于实际应用,ColorBench 评估了这些模型如何感知颜色、从基于颜色的线索中推断意义,以及在不同的颜色变换下保持一致的性能。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ColorBench
AgentRewardBench
发布单位:
McGill University,Mila Quebec AI Institute,etc.
发布时间:
2025-04-11
评测集简介:
AgentRewardBench 是用于评估大型语言模型作为评判者评估 Web 智能体的有效性的基准测试,包含来自 5 个基准测试和 4 个大型语言模型的 1302 条轨迹。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/AgentRewardBench
SCAM
发布单位:
BLISS e.V.,Berliner Hochschule für Technik (BHT),etc.
发布时间:
2025-04-11
评测集简介:
SCAM 是一个规模宏大且内容丰富的现实世界印刷攻击图像数据集,包含数百个对象类别和攻击词汇的 1,162 张图像。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/SCAM
MLRC-Bench
发布单位:
University of Michigan,LG AI Research,University of Illinois
发布时间:
2025-04-13
评测集简介:
MLRC-Bench 旨在量化大模型智能体如何有效地应对具有挑战性的机器学习研究竞赛。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MLRC-Bench
C-FAITH
发布单位:
PKU
发布时间:
2025-04-14
评测集简介:
C-FAITH,一个中文 QA 幻觉基准,由从网络抓取中获得的 1,399 份知识文档创建,总共 60,702 个条目。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/C-FAITH
MIEB
发布单位:
Durham University,Zendesk,etc.
发布时间:
2025-04-14
评测集简介:
MIEB 是一个大规模图像嵌入基准,用于系统性评估图像及图文嵌入模型的性能,涵盖了 130 个单独的任务,这些任务分为 8 个高级类别。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MIEB
LLM-SRBench
发布单位:
VinUniversity, Carnegie Mellon University, etc.
发布时间:
2025-04-14
评测集简介:
LLM-SRBench 是一个全面的基准测试,包含四个科学领域的 239 个具有挑战性的问题,专门设计用于评估基于 LLM 的科学方程发现方法。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/LLM-SRBench
AgMMU
发布单位:
Rice University,Carnegie Mellon University,etc.
发布时间:
2025-04-14
评测集简介:
AgMMU 是一个多模态知识密集型数据集,具有农业领域数据的专长。视觉-语言模型(VLMs)必须观察图像的细节并提供事实准确的答案。通过现实世界的用户-专家对话实现,AgMMU 包含 3390 个开放式问题(OEQs)用于事实性问题,5793 个多项选择题(MCQs)类似于传统的视觉-语言基准,以及一个包含 205,399 条事实的农业知识库,用于模型微调。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/AgMMU
VisualPuzzles
发布单位:
Carnegie Mellon University
发布时间:
2025-04-15
评测集简介:
VisualPuzzles,一个旨在测试大模型视觉推理能力,同时刻意减少对专业知识依赖的基准测试。问题的主要来源是中国公务员考试中翻译后的逻辑推理题目。VisualPuzzles 包含 1168 道涵盖五个类别的多样化题目:算法推理、类比推理、演绎推理、归纳推理和空间推理。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/VisualPuzzles
MMTB
发布单位:
Tencent HunYuan
发布时间:
2025-04-16
评测集简介:
MMTB 通过关联的动态任务评估基于 LLM 的智能体的稳健性。在该基准中,每个测试案例包含多个相互关联的任务,这种设计要求智能体能够动态适应不断变化的需求。此外,所提出的基准探索了固定任务数量内的所有可能的任务切换模式。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MMTB
REAL
发布单位:
The AGI Company, Stanford University,etc.
发布时间:
2025-04-17
评测集简介:
REAL 是一个用于在现实世界网站的确定性模拟上进行多轮智能体评估的基准测试和框架,包含 11 个广泛使用的网站的高保真、确定性副本,这些网站涵盖电子商务、旅行、通信和职业社交等领域。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/REAL