【多智能体】基于LLM自进化多学科团队医疗咨询多智能体框架
😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体
等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:MDTeamGPT: A Self-Evolving LLM-based Multi-Agent Framework for
Multi-Disciplinary Team Medical Consultation
💻时间:202503
💭推荐指数:🌟🌟🌟🌟🌟
往期精彩专栏内容,欢迎订阅:
🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体
创新性
- 提出了一个基于大型语言模型(LLM)的多代理多学科团队医疗咨询框架(MDTeamGPT),
通过共识聚合和残差讨论结构有效整合多轮讨论结果,减少了代理的认知负担,提高了推理和
决策的准确性。 - 框架采用了自适应学习机制,利用正确和错误的诊断经验,逐步积累和加强可迁移的推理能力。
- 实验结果表明,框架在使用600轮咨询经验的情况下,在MedQA数据集上达到了90.1%的准确
率,在PubMedQA数据集上达到了83.9%的准确率。跨数据集测试进一步证实了知识库具有泛
化推理能力,而不仅仅是孤立的咨询数据。 - 框架通过两个知识库(正确答案知识库CorrectKB和思维链知识库ChainKB)动态提高整体咨询
准确性,并在一定程度上展示了出色的泛化能力。 - 尽管框架的整体性能在很大程度上取决于用于存储和利用咨询经验的基础模型的能力,但该方
法在当前的医疗咨询场景中仍然表现出色。
研究背景
- 研究问题:这篇文章要解决的问题是如何在多学科团队(MDT)医疗咨询中利用大型语言模型(LLMs)进行有效的多智能体协作,以提高诊断的合理性和准确性。
- 研究难点:该问题的研究难点包括:多学科团队协作导致对话历史过长,增加模型的认知负担,降低效率和准确性;现有方法仅存储治疗历史,未能有效整合正确的诊断经验或反思错误,限制了知识的泛化和系统的进化。
- 相关工作:该问题的研究相关工作有:基于LLMs的多智能体协作系统(如ChatDev、MACNET、MetaGPT)、经验利用方法(如ExpeL、CoLearning、IER、Selfevolve、AgentHospital)以及讨论和聚合方法(如Nominal Group Technique、LLM Discussion)。
研究方法
这篇论文提出了一个基于LLMs的多智能体MDT医疗咨询框架(MDTeamGPT),用于解决多学科团队医疗咨询中的问题。具体来说,
- 角色分配与初步讨论:初级保健医生根据患者的病情将患者分配给最适合的专家智能体,并进行初步讨论。每个专家智能体提供初始响应,并由首席医生处理这些响应,将其分类为一致性、冲突、独立性和集成四类。
- 多轮讨论与共识达成:在随后的讨论轮次中,专家智能体参考历史共享池中的信息,结合前两轮的讨论结果,进行进一步的讨论。每轮讨论结束后,首席医生再次处理响应,直到所有专家智能体达成共识或达到最大讨论轮次。
- 总结与输出阶段:最终输出由安全和伦理审查员审查,确认无误后,将咨询结果分类存储到正确答案知识库(CorrectKB)或思维链知识库(ChainKB)中。新患者到来时,根据其背景信息和医疗问题检索相关案例,增强提示并启动新一轮咨询。
实验设计
- 数据集:使用MedQA和PubMedQA数据集进行验证。MedQA数据集包含USMLE风格的医学问题,PubMedQA数据集基于研究论文摘要,分别评估医学知识和自然语言处理模型的学术问答能力。
- 实验设置:在每个数据集的测试集上进行实验,使用600轮咨询经验进行训练。实验中使用了多个基础模型(如gpt-4-turbo、gpt-3.5-turbo、gpt-4o、LLaMA3-8B、LLaMA3-70B、glm-4-plus、
deepseek-v3)作为核心模型,评估其自进化能力。 - 参数配置:在实验中,设置了不同的模块组合和知识库配置,以评估各组件对准确率的影响。
结果与分析
- 主要结果:在MedQA数据集上,MDTeamGPT框架的准确率为90.1%,在PubMedQA数据集上的准确率为83.9%。跨数据集测试进一步证实了知识库的泛化能力,正确回答知识库和思维链知识库在不同数据集上的准确率均有所提高。
- 消融研究:通过消融实验,评估了不同模块组合对准确率的影响。结果表明,结合残差讨论模式和首席医生的方法显著提高了MedQA和PubMedQA数据集上的准确率。
- 自进化能力:随着咨询样本和存储案例经验的增加,所有基础模型的测试准确率均有所提高,并在约600个案例后趋于稳定。相对较弱的基础模型(如LLaMA3-8B)在积累咨询经验后改进速度更快。
- 框架效能:MDTeamGPT框架在不同基础模型上的应用均表现出显著的效能提升,证明了其广泛的适用性和增强效果。
- 知识库泛化:跨数据集实验表明,正确回答知识库和思维链知识库不仅成功转移了特定咨询案例,还有效地迁移了反射性推理和思维过程,增强了框架在不同场景下的泛化能力。
总体结论
本文提出了一种新颖的多学科团队多智能体医疗咨询框架MDTeamGPT,通过残差讨论模式和共识聚
合减少了信息冗余,提高了讨论效率。通过利用两个知识库,框架动态提高了整体咨询准确率,并展
示了一定的泛化能力。尽管框架的整体性能在很大程度上取决于存储和利用咨询经验的基础模型的能
力,但其在当前医疗咨询场景中仍表现出色。
📌 [ 笔者 ] 文艺倾年
📃 [ 更新 ] 2025.6.9
❌ [ 勘误 ] /* 暂无 */
📜 [ 声明 ] 由于作者水平有限,本文有错误和不准确之处在所难免,本人也很想知道这些错误,恳望读者批评指正!