当前位置: 首页 > ds >正文

【Agent】AI智能体评测基座AgentCLUE-General

note

  • AgentCLUE-General将题目划分为“联网检索”、“数据分析”、“多模态理解”和“多场景组合”任务
  • AgentCLUE-General为每个题目都提供一个标准答案,将Agent智能体的答案与标准答案进行规则匹配判断对错

文章目录

  • note
  • 一、任务划分和场景划分
  • 二、答案提取的prompt
  • 三、评估样例
  • Reference

一、任务划分和场景划分

在这里插入图片描述

场景划分:
在这里插入图片描述
等级划分:
在这里插入图片描述
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:

  • 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。
  • 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步。
  • 3 级问题通常是多个任务场景的组合,要求通用AI Agent能够支持足够长的系列动作(一般是10个以上),完成较为复杂的人类日常可能遇到的任务。

二、答案提取的prompt

你是一名通用的人工智能助手。我会问你一个问题。请将你的最终答案使用如下格式展示:
最终答案:[[你的最终答案]]。对“[[ ]]”中的最终答案的要求如下:
你的最终答案应该是一个数字,或者尽可能少的单词,或者一个逗号分隔的数字和/或字符串列表。如果你被要求输出一个数字,除非另有说明,否则最终答案不要在数字中包含逗号,也不要使用 $ 或百分号等单位,只需要给一个数字作为最终答案即可。如果要求你输出一个字符串,除非另有说明,否则最终答案不要使用缩写(例如回答是城市时,请写城市的全名),并以纯文本形式写出如果要求你输入一个逗号分隔的列表,请根据要放入列表中的元素是数字还是字符串来应用上述规则。下面是你要回答的问题:

评估流程:
1.获得问题、模型答案和标准答案–>
2.依据评分标准评价每一题是否得分–>
3.计算模型最终得分

三、评估样例

影视作品数据分析:
【Manus的解题轨迹(访问链接可查看Manus的动态解题过程)】:https://manus.im/share/UOjrxmmv7meAP4RgzrOSsr?replay=1

Reference

[1] www.SuperCLUEai.com

http://www.xdnf.cn/news/747.html

相关文章:

  • 21.Chromium指纹浏览器开发教程之触摸屏点指纹定制
  • RHCSA Linux 系统文件内容显示2
  • 云梦数字化系统 介绍
  • 2025 第十六届蓝桥杯Java B组
  • 信号的概念
  • 《软件设计师》复习笔记(2.4)——输入输出、中断、总线、可靠性
  • TensorFlow介绍
  • 漫游git rebase + 浅谈git checkout和git branch -f的分支命令
  • Linux内核哈希表学习笔记
  • Vue3 + TypeScript + Pinia 搭建一套企业级的开发脚手架
  • 数字化时代下的工业物联网智能体开发平台策略
  • Vue3中provide和inject数据修改规则
  • 代码随想录训练营第36天 ||1049. 最后一块石头的重量 II 494. 目标和 474. 一和零
  • C++——智能指针
  • 防抖与节流的理解与应用
  • 【C++】win 10 / win 11:Dev-C++ 下载与安装
  • 数据结构实验7.1:二叉树的遍历
  • C语言strlen和sizeof区分
  • Cadence学习笔记之---库元件制作、元件放置
  • TDengine 性能监控与调优实战指南(二)
  • 指针(2)
  • Linux 网络基础(二) (传输协议层:UDP、TCP)
  • cloudstudio学习笔记之openwebui
  • 嵌入式面试题解析:二维数组,内容与总线,存储格式
  • iwebsec靶场 文件包含关卡通关笔记11-ssh日志文件包含
  • Boost.Asio 确实属于 异步非阻塞模型
  • 多模态大语言模型arxiv论文略读(三十一)
  • 高并发场景下重试策略的演进设计
  • 【Linux】Rhcsa复习4
  • 亚马印象建材:推出“200×1200和300×1800数码釉木纹砖”新品