当前位置：首页 > ds >正文

【Agent】AI智能体评测基座AgentCLUE-General

ds 2025/7/18 0:24:12

note

AgentCLUE-General将题目划分为“联网检索”、“数据分析”、“多模态理解”和“多场景组合”任务
AgentCLUE-General为每个题目都提供一个标准答案，将Agent智能体的答案与标准答案进行规则匹配判断对错

文章目录

note
一、任务划分和场景划分
二、答案提取的prompt
三、评估样例
Reference

一、任务划分和场景划分

在这里插入图片描述

场景划分：
在这里插入图片描述
等级划分：

AgentCLUE-General借鉴了GAIA基准（https://huggingface.co/spaces/gaia-benchmark/leaderboard）对难度等级的定义，来定义难度等级：

1 级问题通常只考察一个任务场景，解题所需要的步骤不超过 5 个。
2 级问题通常只考察一个任务场景，解题需要 5 个以上的步骤（通常是6-10个）。如果是考察多个任务场景的“多场景组合”任务，解题步数一般也在6-10步。
3 级问题通常是多个任务场景的组合，要求通用AI Agent能够支持足够长的系列动作（一般是10个以上），完成较为复杂的人类日常可能遇到的任务。

二、答案提取的prompt

你是一名通用的人工智能助手。我会问你一个问题。请将你的最终答案使用如下格式展示：
最终答案：[[你的最终答案]]。对“[[ ]]”中的最终答案的要求如下：
你的最终答案应该是一个数字，或者尽可能少的单词，或者一个逗号分隔的数字和/或字符串列表。如果你被要求输出一个数字，除非另有说明，否则最终答案不要在数字中包含逗号，也不要使用 $ 或百分号等单位，只需要给一个数字作为最终答案即可。如果要求你输出一个字符串，除非另有说明，否则最终答案不要使用缩写（例如回答是城市时，请写城市的全名），并以纯文本形式写出如果要求你输入一个逗号分隔的列表，请根据要放入列表中的元素是数字还是字符串来应用上述规则。下面是你要回答的问题：

评估流程：
1.获得问题、模型答案和标准答案–>
2.依据评分标准评价每一题是否得分–>
3.计算模型最终得分