当前位置: 首页 > backend >正文

【多智能体】基于LLM自进化多学科团队医疗咨询多智能体框架

在这里插入图片描述

😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:MDTeamGPT: A Self-Evolving LLM-based Multi-Agent Framework for
Multi-Disciplinary Team Medical Consultation

💻时间:202503
💭推荐指数:🌟🌟🌟🌟🌟

往期精彩专栏内容,欢迎订阅:

🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体

创新性

  1. 提出了一个基于大型语言模型(LLM)的多代理多学科团队医疗咨询框架(MDTeamGPT),
    通过共识聚合和残差讨论结构有效整合多轮讨论结果,减少了代理的认知负担,提高了推理和
    决策的准确性。
  2. 框架采用了自适应学习机制,利用正确和错误的诊断经验,逐步积累和加强可迁移的推理能力。
  3. 实验结果表明,框架在使用600轮咨询经验的情况下,在MedQA数据集上达到了90.1%的准确
    率,在PubMedQA数据集上达到了83.9%的准确率。跨数据集测试进一步证实了知识库具有泛
    化推理能力,而不仅仅是孤立的咨询数据。
  4. 框架通过两个知识库(正确答案知识库CorrectKB和思维链知识库ChainKB)动态提高整体咨询
    准确性,并在一定程度上展示了出色的泛化能力。
  5. 尽管框架的整体性能在很大程度上取决于用于存储和利用咨询经验的基础模型的能力,但该方
    法在当前的医疗咨询场景中仍然表现出色。

研究背景

在这里插入图片描述

  1. 研究问题:这篇文章要解决的问题是如何在多学科团队(MDT)医疗咨询中利用大型语言模型(LLMs)进行有效的多智能体协作,以提高诊断的合理性和准确性。
  2. 研究难点:该问题的研究难点包括:多学科团队协作导致对话历史过长,增加模型的认知负担,降低效率和准确性;现有方法仅存储治疗历史,未能有效整合正确的诊断经验或反思错误,限制了知识的泛化和系统的进化。
  3. 相关工作:该问题的研究相关工作有:基于LLMs的多智能体协作系统(如ChatDev、MACNET、MetaGPT)、经验利用方法(如ExpeL、CoLearning、IER、Selfevolve、AgentHospital)以及讨论和聚合方法(如Nominal Group Technique、LLM Discussion)。

研究方法

这篇论文提出了一个基于LLMs的多智能体MDT医疗咨询框架(MDTeamGPT),用于解决多学科团队医疗咨询中的问题。具体来说,

  1. 角色分配与初步讨论:初级保健医生根据患者的病情将患者分配给最适合的专家智能体,并进行初步讨论。每个专家智能体提供初始响应,并由首席医生处理这些响应,将其分类为一致性、冲突、独立性和集成四类。在这里插入图片描述
  2. 多轮讨论与共识达成:在随后的讨论轮次中,专家智能体参考历史共享池中的信息,结合前两轮的讨论结果,进行进一步的讨论。每轮讨论结束后,首席医生再次处理响应,直到所有专家智能体达成共识或达到最大讨论轮次。在这里插入图片描述
  3. 总结与输出阶段:最终输出由安全和伦理审查员审查,确认无误后,将咨询结果分类存储到正确答案知识库(CorrectKB)或思维链知识库(ChainKB)中。新患者到来时,根据其背景信息和医疗问题检索相关案例,增强提示并启动新一轮咨询。

实验设计

  1. 数据集:使用MedQA和PubMedQA数据集进行验证。MedQA数据集包含USMLE风格的医学问题,PubMedQA数据集基于研究论文摘要,分别评估医学知识和自然语言处理模型的学术问答能力。
  2. 实验设置:在每个数据集的测试集上进行实验,使用600轮咨询经验进行训练。实验中使用了多个基础模型(如gpt-4-turbo、gpt-3.5-turbo、gpt-4o、LLaMA3-8B、LLaMA3-70B、glm-4-plus、
    deepseek-v3)作为核心模型,评估其自进化能力。
  3. 参数配置:在实验中,设置了不同的模块组合和知识库配置,以评估各组件对准确率的影响。

结果与分析

  1. 主要结果:在MedQA数据集上,MDTeamGPT框架的准确率为90.1%,在PubMedQA数据集上的准确率为83.9%。跨数据集测试进一步证实了知识库的泛化能力,正确回答知识库和思维链知识库在不同数据集上的准确率均有所提高。在这里插入图片描述
  2. 消融研究:通过消融实验,评估了不同模块组合对准确率的影响。结果表明,结合残差讨论模式和首席医生的方法显著提高了MedQA和PubMedQA数据集上的准确率。
  3. 自进化能力:随着咨询样本和存储案例经验的增加,所有基础模型的测试准确率均有所提高,并在约600个案例后趋于稳定。相对较弱的基础模型(如LLaMA3-8B)在积累咨询经验后改进速度更快。在这里插入图片描述
  4. 框架效能:MDTeamGPT框架在不同基础模型上的应用均表现出显著的效能提升,证明了其广泛的适用性和增强效果。
  5. 知识库泛化:跨数据集实验表明,正确回答知识库和思维链知识库不仅成功转移了特定咨询案例,还有效地迁移了反射性推理和思维过程,增强了框架在不同场景下的泛化能力。

总体结论

本文提出了一种新颖的多学科团队多智能体医疗咨询框架MDTeamGPT,通过残差讨论模式和共识聚
合减少了信息冗余,提高了讨论效率。通过利用两个知识库,框架动态提高了整体咨询准确率,并展
示了一定的泛化能力。尽管框架的整体性能在很大程度上取决于存储和利用咨询经验的基础模型的能
力,但其在当前医疗咨询场景中仍表现出色。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2025.6.9
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限,本文有错误和不准确之处在所难免,本人也很想知道这些错误,恳望读者批评指正!

在这里插入图片描述

http://www.xdnf.cn/news/13025.html

相关文章:

  • Redis专题-实战篇一-基于Session和Redis实现登录业务
  • GC1808高性能24位立体声音频ADC芯片解析
  • 分享一个自己封装的自用浏览器自动化工具(含浏览器自动下载,网页操作,文件上传下载,网络监听,翻页,Cookies等功能)
  • 初探用uniapp写微信小程序遇到的问题及解决(vue3+ts)
  • 监控升级:可视化如何让每一个细节 “说话”
  • validate校验的使用
  • 运动控制--BLDC电机
  • 【Linux指南】用户与系统基础操作
  • C++之list的自我实现
  • 曼昆《经济学原理》第九版 第十二章税收制度的设计
  • NY158NY159美光固态闪存NY160NY161
  • 权限一览表
  • 曼昆《经济学原理》第九版 第八章税收的成本
  • 深入探索CDC:实时数据同步利器
  • C++ map基础概念、map对象创建、map赋值操作、map大小操作、map数据插入、map数据删除、map数据修改、map数据统计
  • zotero及其插件安装
  • Java中的泛型底层是怎样的
  • 【八股消消乐】构建微服务架构体系—服务注册与发现
  • 线性规划饮食问题求解:FastAPI作为服务端+libhv作为客户端实现
  • Boost ASIO 库深入学习(1)
  • CSRF(跨站请求伪造)详解
  • 《经济学原理》第九版 第九章国际贸易
  • 01Linux基础入门教程——从起源到核心概念
  • MySQL的日志
  • 深入理解Python内置模块及第三方库的使用与管理
  • Global Security Markets International Compliance知识点总结
  • 用 DeepSeek 创作一首属于自己的歌
  • HBM 读的那些事
  • Spring通用类型转换的实现原理
  • LangChain4j 1.x 核心源码剖析-基础篇