当前位置: 首页 > news >正文

论文略读:If Multi-Agent Debate is the Answer, What is the Question?

202502 arxiv

1 intro

  • 多智能体辩论(Multi-Agent Debate, MAD):通过让多个智能体在大模型推理时展开多轮辩论,可提升生成内容的事实准确性和推理质量
    • 但论文认为,目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
      • 在 36 种实验配置(覆盖 9 个常见数据集与 4 种大模型)中,MAD 的胜率不足 20%
  • ——>论文提出Heter-MAD,通过简单引入异构模型智能体,无需修改现有 MAD 框架即可稳定提升性能(最高达 30%)

2 主要结论

  • 选取了 
    • 5 种具有代表性的 MAD 框架
      • SoM、MP、EoT、ChatEval 和 AgentVerse
    • 9 个涵盖通用知识、数学推理和编程能力的基准数据集
    •  4 个基础模型
      • GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
    • 两种baseline
      • Chain-of-Thought;self-consistency
    • 评估指标
      • 性能、效率和鲁棒性

  • 在 36 个测试场景中,MAD 方法仅在不到 20% 的情况下优于CoT,更别说SC了

  • MAD 方法消耗了更多的 token,但未能带来稳定的性能提升        

  • 增加智能体数量或辩论轮次并未显著改善 MAD 的表现

3 异构MAD效果

  • 论文认为,人类协作成功的关键在于个体多样性
    • 但现有 MAD 方法大多使用同一模型的多个实例进行评测,忽视了模型多样性可能带来的性能提升
  • ——>提出了 Heter-MAD 方法:在MAD 框架中,每个 LLM 智能体随机从异构模型池中选择模型生成答案
    • 无需改变现有 MAD 框架结构,却能显著且稳定地提升性能
http://www.xdnf.cn/news/600031.html

相关文章:

  • 一条SQL语句的旅程:解析、优化与执行全过程研究
  • 讯联文库开发日志(五)登录拦截校验
  • 《STL--- vector的使用及其底层实现》
  • CAD球体功能梯度材料3D插件
  • Data Whale
  • 今日打卡,Leetcode第四题:寻找两个正序数组的中位数,博主表示就会sorted
  • 飞书知识问答产品测评:让企业玩转AI
  • 外卖跑腿小程序评价系统框架搭建
  • 《算法导论(第4版)》阅读笔记:p115-p126
  • 机器人强化学习入门学习笔记(四)
  • 对Android中binder的理解
  • 海拔案例分享-实践活动报名测评小程序
  • SQL进阶之旅 Day 1:高效表设计与规范
  • 图解深度学习 - 机器学习简史
  • 交叉编译DirectFB,以及报错解决方法
  • Vue3+Vite+TypeScript项目中跨页多选表格的实现与应用
  • MCP协议:AI时代的“万能插座”,如何重塑互联网技术生态?
  • Linux的启动流程
  • 华为仓颉语言生成的程序的分发部署
  • Basic concepts for seismic source - Coulomb failure stress change
  • C++内存复制
  • (01)华为GaussDB((基于PostgreSQL))高斯数据库使用记录,dbeaver客户端配置高斯驱动,连接高斯数据库
  • 订单越来越到导致接口列表查询数据缓慢解决思路
  • 【结构体宏定义】C语言结构体与宏定义:传感器配置的巧妙结合
  • 高等数学-求导
  • 计算机组成体系结构
  • 数据库-数据处理
  • B2160 病人排队
  • 算法题(153):哈夫曼编码
  • CAD打印没有标注解决方法