当前位置：首页 > news >正文

论文略读：If Multi-Agent Debate is the Answer, What is the Question?

news 2025/7/13 16:14:34

202502 arxiv

1 intro

多智能体辩论（Multi-Agent Debate, MAD）：通过让多个智能体在大模型推理时展开多轮辩论，可提升生成内容的事实准确性和推理质量
- 但论文认为，目前多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought
  - 在 36 种实验配置（覆盖 9 个常见数据集与 4 种大模型）中，MAD 的胜率不足 20%。
——>论文提出Heter-MAD，通过简单引入异构模型智能体，无需修改现有 MAD 框架即可稳定提升性能（最高达 30%）

2 主要结论

选取了
- 5 种具有代表性的 MAD 框架
  - SoM、MP、EoT、ChatEval 和 AgentVerse
- 9 个涵盖通用知识、数学推理和编程能力的基准数据集
- 4 个基础模型
  - GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
- 两种baseline
  - Chain-of-Thought；self-consistency
- 评估指标
  - 性能、效率和鲁棒性

在 36 个测试场景中，MAD 方法仅在不到 20% 的情况下优于CoT，更别说SC了

MAD 方法消耗了更多的 token，但未能带来稳定的性能提升

增加智能体数量或辩论轮次并未显著改善 MAD 的表现

3 异构MAD效果

论文认为，人类协作成功的关键在于个体多样性
- 但现有 MAD 方法大多使用同一模型的多个实例进行评测，忽视了模型多样性可能带来的性能提升
——>提出了 Heter-MAD 方法：在MAD 框架中，每个 LLM 智能体随机从异构模型池中选择模型生成答案
- 无需改变现有 MAD 框架结构，却能显著且稳定地提升性能

http://www.xdnf.cn/news/600031.html

相关文章：

一条SQL语句的旅程：解析、优化与执行全过程研究

讯联文库开发日志（五）登录拦截校验

《STL--- vector的使用及其底层实现》

CAD球体功能梯度材料3D插件

今日打卡，Leetcode第四题：寻找两个正序数组的中位数，博主表示就会sorted

飞书知识问答产品测评：让企业玩转AI

外卖跑腿小程序评价系统框架搭建

《算法导论(第4版)》阅读笔记：p115-p126

机器人强化学习入门学习笔记（四）

对Android中binder的理解

海拔案例分享-实践活动报名测评小程序

SQL进阶之旅 Day 1：高效表设计与规范

图解深度学习 - 机器学习简史

交叉编译DirectFB，以及报错解决方法

Vue3+Vite+TypeScript项目中跨页多选表格的实现与应用

MCP协议：AI时代的“万能插座”，如何重塑互联网技术生态？

Linux的启动流程

华为仓颉语言生成的程序的分发部署

Basic concepts for seismic source - Coulomb failure stress change

C++内存复制

（01）华为GaussDB((基于PostgreSQL))高斯数据库使用记录，dbeaver客户端配置高斯驱动，连接高斯数据库

订单越来越到导致接口列表查询数据缓慢解决思路

【结构体宏定义】C语言结构体与宏定义：传感器配置的巧妙结合

高等数学-求导

计算机组成体系结构

数据库-数据处理

B2160 病人排队

算法题（153）：哈夫曼编码

CAD打印没有标注解决方法