当前位置: 首页 > news >正文

【Code Agent Benchmark】论文分享No.15:TAU-Bench

论文名称:τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

论文:https://arxiv.org/abs/2406.12045

机构:Sierra

Github 链接:https://github.com/sierra-research/tau-bench#

简介

相比于Swe-bench而言,大家可能对TAU-bench并不是很熟悉,但2月份Claude 3.7发布的时候,Anthropic官方就曾用过TAU-bench来展示Claude As Agent的效果,说明这个benchmark还是得到了官方的认可,值得介绍一下。

在这里插入图片描述

TAU-bench是Sierra团队推出的评估 AI Agent在复杂的现实任务中与用户和工具交互的能力,主要是设计了两个垂直领域的场景评测:

  • Retail(零售场景):构建模拟零售环境,含数据库、API 工具和政策规则,让Agent处理订单、退换货等任务,测试其遵循规则、信息处理和任务执行能力。

  • Airline(航空场景):创建航班数据库、API 工具和复杂政策,Agent处理航班预订等任务,评测其应对复杂规则和多跳推理的能力。

这两个场景的任务都足够复杂,其中会有Agent与用户的多轮对话,也会有使用工具获取信息、解决问题的环节,所以比较适合用来评估一个Agent运行所需要的推理、指令遵循、长下文理解、工具调用等能力。

为什么跟AI Coding强相关呢?因为这些任务所要用到的工具跟代码强相关,算是一个AI Coding Agent近似实战的测试环境。

数据构造

在这里插入图片描述

TAU-Bench的数据构造采用模块化方式,以零售场景的case为例,具体如下:

  • JSON数据库:如图2a,数据库采用JSON格式,存储任务相关数据,如订单信息等,对Agent和用户隐藏,Agent通过API工具间接访问。

  • Python API工具:如图2b,用Python实现,用于对数据库进行读、写操作,其函数形式为tool_name(**kwargs),执行动作时数据库状态转移是确定性的。

  • Markdown域策略:如图2c,以Markdown格式描述,解释域数据库、任务流程和限制条件,部分限制在API中实现为检查,部分需Agent根据策略遵循。

  • JSON任务实例:如图2d,包含用于用户模拟的指令和真实数据库写操作的注释,指令设定用户身份、意图和偏好,保证在域策略下只有一个可能结果。

使用方法

在这里插入图片描述

准备工作

确定测试场景(零售或航空等),明确对应领域的数据库、API工具和政策规则 。将领域政策告知Agent,让其知晓规则,并将用户的指令给到Agent设定用户身份、意图等 。

交互过程

  • 用户指令下达:模拟用户向Agent提出任务指令,如在航空场景中更改最近的预订航班目的地

  • Agent操作:Agent依据接收到的指令和领域政策,调用API工具与数据库交互。例如在航空场景中,先调用get_reservation_details获取预订详情,再根据规则判断能否更改,如需取消则调用cancel_reservation

  • 多轮交互:过程中Agent与模拟用户可能有多轮对话,确认需求、反馈操作情况等 。

结果评估

对话结束后,将数据库最终状态与标注的目标状态对比 ,使用如pass^k等指标评估Agent行为的可靠性、一致性,判断其任务完成情况 。

评价指标

pass^1

顾名思义,不赘述了。

pass^k

因为Agent真正使用时,比如让它去订机票、处理退换货,如果执行失败会让人有很大的挫败感,所以它的成功率稳定性很重要,这个benchmark定义了pass^k的指标,也就是对一个测试case连续执行k次,每次都成功,才能算任务成功。

总结

TAU-Bench 也是用来评估LLM As Agent的能力,并将其限定在了代码->航空/零售领域,任务设计上比较接近生活中的实际问题,是一个比较不错的benchmark。

http://www.xdnf.cn/news/627013.html

相关文章:

  • Windows下编译Zipios
  • 线性回归原理推导与应用(七):逻辑回归原理与公式推导
  • 解决input框被禁用后无法添加点击事件的几个方案
  • 前端大文件上传性能优化实战:分片上传分析与实战
  • 构建Harbor私有镜像库
  • MySQL--day7--聚合函数
  • 【一对一文件重命名】如何按照Excel表格文件名对应的关系,批量一对一的批量改名,一对一关联改名,如何按照映射关系一对一重命名文件夹
  • Serv00 免费邮局 搭建属于自己的域名邮箱 支持 SMTP / Catch-all
  • 电子电路:为什么导体中的电子数量能够始终保持不变?
  • NSSCTF-[羊城杯 2023]程序猿Quby
  • 【通用技巧】技术文章工业级指南:目标定位、架构设计与持续演进
  • PINN高阶技术综合应用:复杂问题求解与神经算子进阶
  • NV123NV134美光闪存颗粒NV139NV143
  • 52页 @《人工智能生命体 新启点》中國龍 原创连载
  • 详细设计文档怎么写?@附参考原件
  • Spring Boot中如何对密码等敏感信息进行脱敏处理
  • 【一. Java基础:注释、变量与数据类型详解】
  • 安卓11 多任务视图270 度的情况报错
  • n 阶矩阵 A 可逆的充分必要条件是 ∣ A ∣ ≠ 0
  • (泛函分析)线性算子谱的定义,谱的分类,谱的性质。
  • 精益数据分析(83/126):从病毒性到营收——创业阶段的关键跨越与商业化策略
  • 《Java 单例模式:从类加载机制到高并发设计的深度技术剖析》
  • go多线程压测监控
  • 每日算法刷题Day14 5.24:leetcode不定长滑动窗口求子数组个数越长越合法4道题,用时1h20min
  • 行为型:模板方法模式
  • Web 安全进阶:前端信封加解密技术详解
  • day35 python模型可视化与推理
  • 【卫星通信】通信卫星链路预算计算及其在3GPP NTN中的应用
  • [Windows] GDownload v1.0.0
  • 豪越科技:消防应急装备智能仓储管理新变革