当前位置: 首页 > news >正文

【文献阅读】EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery

[2501.11347] EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery

2025年1月

数据可用性

Surg-396K 数据集可在 GitHub - gkw0010/EndoChat 公开获取。

代码可用性

EndoChat 的代码可在 GitHub - gkw0010/EndoChat 下载。

摘要

近年来,多模态大语言模型(MLLMs)在计算机辅助诊断和决策中展现出巨大潜力。在机器人辅助手术领域,MLLMs 可作为手术培训和指导的有效工具。然而,临床应用中仍缺乏专门用于手术场景理解的 MLLMs

本文引入 EndoChat,以解决外科医生在手术场景理解中遇到的各种对话范式和子任务。为训练 EndoChat,我们通过一种新型流程构建了 Surg-396K 数据集,该流程基于收集的大规模内窥镜手术数据集,系统提取手术信息并生成结构化注释。

此外,我们引入多尺度视觉令牌交互机制和基于视觉对比的推理机制,以增强模型的表示学习和推理能力。我们的模型在五种对话范式和八项手术场景理解任务中均实现了最先进的性能。此外,我们邀请专业外科医生进行评估,大多数医生对与 EndoChat 协作给出了积极反馈。总体而言,这些结果表明 EndoChat 在显著推进机器人辅助手术的培训和自动化方面具有巨大潜力。

引言

机器人辅助手术(RAS)为提高手术精度、减少患者创伤和缩短术后恢复时间提供了前所未有的机会 [1]。然而,该技术的有效应用对 surgeons 的技能提出了很高要求,尤其是在手术过程中掌握机器人系统的操作。

确保手术安全和有效性,surgeons 必须经过严格培训以掌握机器人操作所需的核心技能 [2,3]。为提高培训效率,已开发了各种基于模拟器的手术平台 [4]。然而,当学员在培训中遇到挑战时,他们通常需要专业 surgeons 的即时反馈和指导以解决疑问或纠正错误。

不幸的是,由于临床、教学和研究职责的繁重工作负荷,专业 surgeons 通常面临严重的时间限制,难以在培训期间提供持续的实时支持 [5,6]。因此,迫切需要能够在手术培训中提供灵活、实时和高效支持的技术解决方案。

最近,具有结构化视觉问答(VQA)功能的基于人工智能(AI)的对话系统已被引入手术培训 [6-17]。这些系统分析手术场景的视觉数据以回答学员的问题。作为首个专门为手术场景设计问答(QA)模型的研究,SurgicalVQA 通过文本描述表示手术场景中的关键元素,如器械、组织、工具和空间位置 [6]。

该模型使用 VisualBERT [18] 框架,集成文本和图像的多模态表示,并通过解码器生成相应答案。后续工作如 Surgical-VQLA 通过在解码器级别纳入边界框输出,提供明确的视觉定位以协助 surgeons [7,9,12,17]。后来的研究探索了不同的网络设计或推理范式。

然而,这些模型通常依赖结构化 VQA 数据集,这些数据集通常针对特定任务设计和训练。这种依赖限制了它们动态适应学员提出的广泛问题的能力 [19,20]。此外,这些方法大多基于编码器 - 解码器架构,需要明确定义的输入 / 输出格式。

这种刚性使其在处理高度开放式生成任务时灵活性较低,并限制了可扩展性。当应用于训练范围之外时,这些模型通常表现出显著的性能下降,使其不适合各种手术场景的复杂性 [21,22]。当学员提出开放式问题时,现有 VQA 系统缺乏此类交互所需的灵活性和上下文理解能力。因此,它们难以处理开放式问题或复杂的多轮对话,显著限制了其在手术培训中的实用性。

最近,医疗多模态大语言模型(MLLMs)正在成为一种有前途的解决方案,通过大规模预训练展现出执行跨任务复杂推理和理解的巨大潜力 [23-39]。具体而言,MLLMs 可以从手术场景的多模态数据中提取信息并执行高级推理。

与结构化问答系统不同,MLLMs 能够处理非结构化和复杂的上下文信息。例如,学员可以用自然语言提出开放式问题,MLLMs 可以利用其预训练知识和多模态推理能力生成有针对性的响应。

这些强大的自然语言处理能力使 MLLMs 能够处理多轮对话并根据上下文动态调整响应。这种交互类似于接受专业 surgeons 的指导,显著增强了培训体验。

总体而言,MLLMs 有可能通过模拟专业 surgeons 的知识和决策能力,部分替代他们的实时指导。这可以解决当前培训解决方案的局限性,减轻受繁忙临床日程限制的 surgeons 的负担,最终提高手术培训的效率和质量 [26,40,41]。

一些先前的研究已经探索了 MLLMs 在手术场景中的能力 [42-46]。例如,LLaVA-Surg 收集和注释开源视频和数据集,然后通过指令调优增强模型的对话能力 [42]。

另一方面,GP-VLS 将手术场景中的各种任务统一到问答框架中,以文本形式建模和表达不同下游手术任务的结果 [45]。

然而,我们旨在进一步开发 MLLMs 以处理现实场景中学员的各种查询。例如,学员可能会针对特定目标提出简短问题,不需要任何冗余信息。

因此,短语问答(Single Phrase QA)旨在提供与手术上下文相关的简洁、准确和直接的响应。当学员要求对整个手术图像进行详细解释时,详细描述(Detailed Description)则为 surgeons 提供当前手术场景中存在的所有子任务的全面解释

对于有关图像内容的常规查询,视觉问答(Visual QA)通过结合用户查询和图像信息提供上下文感知的答案。当学员需要针对特定区域的对话时,基于区域的问答(Region Based QA)专注于感兴趣特定区域的目标响应,而定位问答(Grounding QA)则根据用户提供的提示生成边界框描述。

这五种不同的对话范式涵盖了自然语言对话中遇到的大多数场景 [47]。通过构建它们,我们旨在设计一种手术 MLLM,能够在不同情况下做出适当响应,创建一个更适合人机交互的系统。这将为手术培训和教育提供更实际和有效的支持。

 图1. EndoChat概述。a EndoChat是专为手术教育和培训设计的交互式多模态聊天机器人。用户可通过上传图像和提出问题与EndoChat交互,实现对手术场景的全面理解。b EndoChat在大规模多模态指令数据集Surg-396K上进行训练。Surg-396K包含五种对话范式,使EndoChat能够与学员进行有效的自然语言和视觉定位对话。底部是多轮对话的示例。

在本文中,我们提出 EndoChat(如图 1 所示),以支持内窥镜手术场景中的多种对话范式,包括短语问答、详细描述、视觉问答、基于区域的问答和定位问答。这个灵活的框架解决了各种交互需求,并涵盖了广泛的手术任务,如器械识别、运动识别、目标定位、组织识别、器械计数和运动方向检测,这些任务是根据我们设计的手术属性总结的,并且高度适应学员在不同上下文中可能提出的各种问题。我们的模型基于 SPHINX [48] 构建。

为了更好地对齐手术场景的视觉特征表示,我们引入了一种新策略,即混合视觉令牌引擎(MVTE),以多尺度提取视觉信息。与使用预训练视觉 Transformer(ViTs)提取视觉令牌的传统框架不同,MVTE 使用多个视觉塔来提取、交互和融合视觉令牌。这种方法在将视觉信息与文本对齐之前改进了视觉信息的提取。此外,为了减少幻觉并增强手术任务中的场景理解,我们引入了一种基于视觉对比的方法来抑制目标幻觉。

为了训练我们提出的 EndoChat,我们开发了 Surg-396K,这是一个专门为手术上下文定制的手术多模态指令数据集。该数据集基于公开可用的 Cholec80-VQA [6]、EndoVis-VQLA [9] 和 CoPESD [49] 数据集构建。

根据这些数据集提供的原始注释,我们通过设计的手术属性系统提取手术信息,并使用多样化的对话模板生成指令调优数据。此外,我们使用 ChatGPT-4 扩展对话数据。这一过程使我们能够模拟不同 surgeons 在各种场景中可能提出的多样化问题,涵盖五种不同的对话范式。

因此,Surg-396K 提供了对广泛手术场景中下游任务和对话范式的全面覆盖。为了验证我们提出的手术理解对话 MLLM 的有效性,我们首先在不同对话范式下与商业和开源 MLLMs 进行了严格比较。

结果表明,我们的方法在手术理解准确性和对话能力方面均超过了现有的通用和医疗 MLLMs。此外,我们表明,我们的模型在手术场景理解的各种属性相关子任务(如器械识别和运动识别等)中均实现了最先进的性能。

消融研究进一步证实了我们在 MLLM 框架内创新架构设计的有效性。此外,我们邀请经验丰富的执业 surgeons 独立评估该助手是否有助于推进手术培训程序以及他们是否愿意采用它。评估结果表明,surgeons 对我们提出的 EndoChat 持积极态度,进一步表明 EndoChat 是各种手术培训和教育场景的合格助手。总之,EndoChat 标志着将 MLLMs 应用于手术培训的显著进展,为学员提供智能的、上下文感知的协助。

结果

EndoChat 的系统设计

EndoChat 采用编码器 - 解码器架构设计,并针对手术场景理解和多模态交互进行了优化,如图 4 所示。

图4. 所提出的EndoChat概述。对于每个输入图像,我们使用多尺度下采样策略生成不同尺度的子图像。224×224和512×512分别表示形状为5×224×224×3和5×512×512×3的拼接特征。这些特征随后通过混合视觉主干网络进行编码,接着经过混合视觉令牌引擎处理。生成的视觉令牌随后被转换到语言空间,适合作为大型语言模型的输入。除了视觉输入外,区域坐标可以作为辅助输入,结合特定提示来引导用户定义的任务。这使大型语言模型能够为相关对象区域生成语言响应。

多模态编码器处理视觉输入(如手术图像)和文本查询,将它们映射到共享的潜在空间。视觉输入由预训练的混合视觉编码器处理,提取语义视觉嵌入,而文本输入则使用大语言模型处理以理解人类问题和查询。多模态对齐层将这些视觉嵌入与文本查询集成,同步视觉信息和自然语言理解。

解码器利用 SPHINX 架构 [48] 中经过微调的 LLaMA2-13B 模型 [50],生成针对查询类型的详细、上下文感知的文本响应。EndoChat 在 Surg-396K 上进行训练,这是一组多样化的交互式指令调优问答对,专为手术场景理解和多模态交互设计。

EndoChat 针对不同复杂程度的手术对话定制交互

EndoChat 通过两种重要范式调整其交互以满足手术场景的不同复杂性:短语问答和详细描述。这些互补方法使 EndoChat 能够为实时手术指导和深入教育目的提供精确、可操作的见解。

短语问答专注于提供简洁明确的答案,非常适合手术过程中的简单查询。通过使用任务特定提示:“用短语回答问题。”,EndoChat 提供简洁的响应,包括手术场景中的关键方面,如器械类型、数量、动作或相对位置。

此功能依赖于视觉内容的快速分析,确保效率而无冗余阐述。例如,“可见多少器械?” 之类的查询会直接回答,如 “三个。”。

表 1 所示的实证评估表明,EndoChat 优于最先进的 MLLMs,如 BiomedGPT 和 LLaVA-Med。具体而言,在 EndoVis-17 部分,其他模型无法有效回答问题(准确率和 F 分数为 0%),EndoChat 实现了显著的 55.51% 准确率,以及 F 分数(29.78)、AP@50(90.25)和 mIoU(86.62)。

EndoChat 在 Surg-396K 的其他部分以及表 2 和表 3 所示的其他公共手术数据集上也表现出优异性能,这表明在我们的 Surg-396K 数据集上进行指令调优过程的稳健性和有效性。

详细描述适用于需要全面理解的更复杂场景。这种交互类型提供基于手术场景视觉内容的深入解释,这对于培训场景和复杂程序至关重要。EndoChat 生成的答案提供了对组织、器械、运动和其他手术元素的详细见解,有助于决策和上下文理解,还提供证明答案的推理。

如表 4 所示,EndoChat 在生成详细描述方面的性能使用 GPT-4 评分进行了严格评估,在 Surg-396K 的所有部分均显著优于所有 MLLMs。这表明 EndoChat 在生成详细、上下文感知和高质量描述方面具有全面优势。

EndoChat 通过多模态增强交互

EndoChat 还通过定位问答和基于区域的问答增强了手术教育交互。定位问答输出边界框以准确定位手术元素,为学员提供上下文感知指导。另一方面,基于区域的问答使用输入边界框聚焦特定区域,如工具或组织,有助于动手培训和手术导航中的精确定位。

EndoChat 在定位问答中表现出卓越性能,这是实时手术指导的关键能力。通过边界框提供响应,定位问答使 EndoChat 能够基于视觉内容和提出的问题确保准确的空间定位。任务特定提示 “仅用边界框回答问题。” 指导模型专注于精确的空间信息。如表 1 和表 2 所示,EndoChat 显著优于其他最先进的模型。值得注意的是,EndoChat 在 EndoVis-18-VQLA 和 EndoVis-17-VQLA 数据集上均实现了最高的 mIoU,得分分别为 86.89 和 86.62。EndoChat 相对于专业模型的持续优异性能表明其更有效地整合了视觉和语言推理,表明 EndoChat 更适合手术导航任务。

另一个关键交互 —— 基于区域的问答,使 EndoChat 能够通过将注意力引导至手术图像内的特定区域来提供更有针对性的分析。通过将用户的边界框纳入问题,基于区域的问答帮助模型专注于感兴趣的区域,如手术工具或组织。这种方法对于需要精确定位或解剖结构评估的任务至关重要。如表 4 所示,EndoChat 在基于区域的问答中优于其他模型,在不同的下游手术数据集上实现了最高性能。这突出了其准确聚焦和分析局部区域的能力,为手术导航提供了有价值的见解,如跟踪器械或评估手术过程中的组织状况。

EndoChat 是类似外科医生的交互工具

EndoChat 利用多模态对话指令调优数据集,通过视觉问答成为类似外科医生的交互模型,系统在回答有关手术场景的一般问题时保持简洁性和上下文清晰度之间的平衡。与提供简短响应的短语问答不同,视觉问答允许更详细的见解,阐述图像的关键方面。这种方法模仿了更自然的对话流程,使 EndoChat 能够提供信息丰富但简洁的答案,类似于人类专家在手术期间提供简单而深刻的反馈。

表 3 表明,EndoChat 在 Cholec80-VQA 数据集的视觉问答中显著优于零样本 MLLMs 和专业模型。EndoChat 在所有评估指标中均获得最高分,超过了最先进的专业模型 VisualBert 和 VisualBert ResMLP。

这突出了 EndoChat 在需要细粒度理解和详细响应的任务中的有效性。

除此之外,EndoChat 在 Surg-396K 的其他部分也表现出明显优势,如表 4 所示。其结果突出了在 BLEU-4 和 METEOR 等指标上的显著提升。与 SPHINX 和其他模型相比,它们的得分相对较低,EndoChat 展示了在多模态信息提取和推理方面更全面的能力。EndoChat 为手术辅助和教育应用设定了新基准。其在这些关键评估指标上的强劲表现巩固了其作为手术领域临床和学术用途首选的地位。

EndoChat 推进手术场景的全面理解

为了全面评估 EndoChat 在应对手术环境固有挑战方面的能力,我们在 Surg-396K 数据集的 CoPESD 部分对 EndoChat 和医疗专用 MLLMs 在八项手术场景理解任务中进行了上下文学习比较。选择 CoPESD 部分是因为它涵盖了手术理解挑战的全部范围。

图3. Surg-396K数据集的构建流程和分布统计概述。该流程包括五个关键步骤:注释属性分析、信息提取、指令调优数据生成、多样化对话生成和数据清洗。

这些任务基于图 3a 所示的数据集属性制定,每个属性定义一个或两个相应任务 [52]。这些任务反映了手术场景的基本组成部分,如器械识别、运动理解和问题检测。上下文学习因其通过利用任务特定提示(如 “答案必须是以下单词或短语之一:’Reach’,’Rotate’,’Grasp’,’Lift’,’Hold’,’Stay idle’,’Dissect’”)动态适应新任务和查询的优势而被采用。

如表 5 总结所示,EndoChat 始终优于其他医疗专用 MLLMs,展示了其在处理各种理解挑战方面的适应性和精确性。

表5. 在Surg-396K数据集的CoPESD部分上,使用零样本医疗专用MLLMs在八项手术场景理解任务中的对比实验。八种任务包括:器械数量、手术场景中的对象位置(文本形式)、器械的当前运动、指令运动的方向、器械识别、器械检测、问题识别和问题检测。

首先,器械计数和对象定位等任务突出了基本的场景理解能力。虽然所有模型在器械计数方面都取得了合理性能,但 EndoChat 以 85.14% 的准确率领先,超过 BiomedGPT(78.84%)和 LLaVA-Med(49.88%)。对于对象定位,EndoChat 的准确率(39.88%)超过 BiomedGPT 超过 26%,展示了其 superior 空间和语义线索整合能力。

其次,在运动识别和方向预测等更复杂的任务中,EndoChat 实现了最高的准确率和 F 分数,表明其在动态和上下文敏感场景中的稳健性。这些结果表明,EndoChat 有效地解读了手术场景内复杂的空间关系。

此外,在器械类别识别和目标组织识别方面,EndoChat 也实现了优异性能,超过所有其他模型。这些发现展示了其在复杂手术环境中区分器械及其相关解剖目标的熟练程度。总体而言,这些发现突出了 EndoChat 在各种任务类型中的泛化能力,使其成为现实世界手术培训和指导的可靠工具。

EndoChat 核心模块有效性的消融研究

在消融研究中,我们使用 Surg-396K 数据集的 EndoVis-18 子集评估了我们提出的 EndoChat 模块的有效性:混合视觉令牌引擎和视觉对比幻觉缓解。

结果如表 6 所示。对于 MVTE 的评估,我们专注于三种对话类型:短语、定位问答和详细描述,因为这些对话类型对图像特征提取和感知质量特别敏感。具体而言,对于短语问答,准确率从 66.74% 提高到 71.47%,F 分数从 33.75% 提高到 43.74%,表明 MVTE 显著增强了模型生成更准确短语级描述的能力。

虽然定位问答的改进较小,但 GPT-4 分数的提高(从 78.26 到 79.35)表明 MVTE 也有助于 refining 模型的推理能力,尤其是对于复杂的手术场景。这些结果表明,MVTE 增强了模型捕捉高质量图像特征的能力,从而提高了需要细粒度图像感知的任务的性能。

幻觉缓解模块在特别容易产生幻觉的对话类型(如视觉问答、基于区域的问答和详细描述)上进行了评估。这些对话类型由于视觉内容与文本查询对齐的挑战,容易出现模型生成不相关或不准确响应的情况。在视觉问答中,该模块导致 CIDEr(从 5.9068 到 5.9904)和 ROUGE-L(从 79.47% 到79.62%)的提升,表明生成响应的语义准确性和上下文相关性有所改善。

在基于区域的问答中,这种效果更为明显,CIDEr 从 5.4069 提高到 5.5735,ROUGE-L 从 80.83 提高到 81.21,表明幻觉缓解模块显著提高了模型生成可靠的特定区域答案的能力。此外,GPT-4 分数的提高(从 77.39 到 79.35)进一步凸显了该模块对增强模型整体推理能力的贡献。这些发现强调了幻觉缓解在提高跨视觉定位任务性能方面的关键作用。

内镜医师对 EndoChat 的专家评估

为了验证 EndoChat 在推进手术培训和教育方面的潜力,我们进行了一项专家评估,涉及 150 例内窥镜手术案例,由齐鲁医院经验丰富的内镜医师进行评估。每个手术案例包括一张手术图像和相应的五轮对话。为确保评估的全面性,五轮对话包括对场景的详细描述,辅以四轮随机选择的视觉问答和基于区域的问答,涵盖了 Surg-396K 中手术数据的所有属性。此外,提供这些对话的正确答案,以协助内镜医师评估 EndoChat 的描述、分析及其在培训场景中的适用性。

图2. 150例内镜医师对EndoChat的评估。a 内镜医师对EndoChat进行的基于问卷的评估。饼图展示了内镜医师对不同同意程度的病例分布。b 四个评估标准的相关性分析。

在内镜医师评估期间,EndoChat 生成的对话会被标注为 “由 MLLMs 生成”。随后的过程是通过将其生成的输出与正确答案进行比较来评估 EndoChat 的可用性。内镜医师然后根据以下标准为每个案例评分:

  • EndoChat 的描述正确。
  • EndoChat 的分析有用。
  • EndoChat 可以在培训期间帮助 surgeons。
  • 愿意使用 EndoChat。

如图 2a 所示,评分范围从 “强烈同意” 到 “强烈不同意”,74.7% 的案例被评估为 EndoChat 提供了正确的描述,而 76.6% 的案例具有有用的分析,增强了对手术场景的理解。此外,在 72% 的案例中,内镜医师同意 EndoChat 可以有效地协助学员进行手术培训,帮助完善手术技能并改善教育结果。

最后,69.3% 的案例反映了将 EndoChat 纳入手术培训的意愿,表明其在现实世界中的应用潜力。这些发现凸显了 EndoChat 作为可靠工具的作用及其在推进内窥镜手术培训程序和教育方面的有效性。

此外,图 2(b)展示了评估标准之间的成对相关性。答案的正确性与使用 EndoChat 的意愿之间观察到强正相关,突出了其提供准确可靠信息的能力直接推动了其现实世界实施的潜力。此外,培训帮助与分析的有用性和正确性均表现出强相关性,表明实用且有见地的分析是接受和教育的关键。

这些关系强调,EndoChat 生成精确、上下文相关输出的能力符合内镜医师对培训支持的需求。鉴于在先前实验中展示的优异性能,EndoChat 通过这种相关性在弥合 AI 创新与内窥镜手术实践之间的差距方面显示出明显优势,进一步巩固了其作为多功能和有影响力工具的价值。

讨论

本研究旨在开发用于手术教育和培训的智能手术聊天机器人和协同器。我们首先构建了高质量、多范式的数据集 Surg-396K,用于手术场景理解和对话,以及手术场景中视觉 - 语言数据收集和注释的综合框架。此外,我们开发了增强的视觉表示提取和推理策略,作为 EndoChat 的基础,该聊天机器人系统旨在执行手术上下文中的多模态理解和对话。

我们的分析和比较包括 6 个 MLLMs 和 10 多个专业模型,表明我们的模型在各种对话范式和手术特定场景理解任务中均实现了出色性能。我们通过消融实验进一步验证了我们提出的视觉特征学习方法和基于视觉对比的 MLLM 推理方法的有效性。

此外,我们邀请经验丰富的 surgeons 评估他们在培训或手术期间使用 EndoChat 作为助手的意愿。在大多数评估案例中,surgeons 提供了积极反馈,进一步展示了我们提出的 EndoChat 的临床可靠性、可用性和可接受性。

通常,设计用于对话和使用的精确且适合 surgeons 的聊天机器人有两个关键因素。第一个是确保手术场景理解下游任务的准确性,如器械识别和动作识别。为了提高 EndoChat 在这些下游任务中的性能,我们认为短语问答是最关键的。

这是因为此类对话数据中的答案通常是简单的单词或短语,使模型更容易将视觉信息与文本注释联系起来,从而在子任务中实现更高的准确性。第二个是使聊天机器人更适合 surgeons 的使用方式,这是本研究的主要焦点。

建立不同的对话范式有助于回答 surgeons 和学员在各种上下文中的问题,还有助于抑制 MLLMs 典型的发散对话倾向。这使模型能够更专注于 surgeons 提出的问题并提供相关答案。未来,我们的目标是将 EndoChat 直接集成到手术培训或内窥镜手术系统中。通过使用显示器和基于语音的对话系统,EndoChat 可以向 surgeons 或学员提供直接协助。

尽管我们的 EndoChat 在各种手术对话任务中表现出色,但它仍然面临一些局限性。首先,虽然我们拥有大型手术图像数据库,但其中包含的独特手术案例数量相对较少。这样的大型数据库有助于动作和器械识别等任务;

然而,案例数量有限可能会阻碍我们的模型在应用于不同手术技术时的泛化能力。未来扩展数据库以包括更多手术程序和案例可以显著增强 EndoChat 在各种手术场景中的泛化性和适用性。此外,MLLMs 通常依赖大量计算能力,这对在资源受限的边缘环境中部署提出了挑战。

现有的部署方法包括开发用于在移动设备或个人计算机上部署的轻量级 MLLMs,或在云中托管模型并实现与移动 / 计算机终端的通信。在计算资源有限的临床环境中找到部署 MLLMs 的方法仍将是一个重大挑战。最后,随着越来越多的多样化数据被引入,需要仔细研究和审查临床数据的隐私和伦理使用问题,以确保其应用过程中的合规性。

总之,我们提出了一种灵活的手术理解 MLLM,EndoChat,旨在整合手术场景理解中的各种下游任务,并支持 surgeons 与聊天机器人之间可能发生的不同对话范式。

大量实验证明了我们方法的有效性,为理解手术场景提供了更具泛化性的解决方案。此外,我们将开源我们的模型权重、训练代码和数据,以促进手术领域多模态 AI 系统的发展。未来,我们将与 surgeons 和临床系统合作,进行更严格和广泛的验证,以确保对话模型的安全性、可靠性和可用性。

方法

Surg-396K:手术多模态指令数据集

人工智能辅助手术领域在公共多模态数据集(尤其是视觉问答(VQA)对)的可用性方面经历了显著扩展,如从 [6] 到 [10] 的研究所示。然而,多模态指令数据的可用性仍然有限,主要由于人工众包的耗时和缺乏标准化流程。

为了促进针对手术理解的 MLLMs 的发展,我们提出 Surg-396K,这是一个手术多模态指令数据集,包含 41K 图像和 396K 用于内窥镜手术的指令遵循注释。按照图 3 所示的数据生成和聚合流程,我们总共编译了 341k 图像 - 指令对用于训练,55k 用于测试。以下小节将详细介绍 Surg-396K 的生成过程。

组成数据集的初步信息

在构建我们的 Surg-396K 数据集时,我们整合了三个不同的数据集。受近期 MLLMs 在文本注释任务中的成就启发 [61],我们使用 ChatGPT-4 生成遵循多模态指令的数据,从 EndoVis-VQLA [9] 和 CoPESD [49] 数据集衍生出五种对话类型。第三个数据集 Cholec80-VQA [6] 缺乏定位信息,属于 Surg-396K 数据集。

EndoVis-VQLA [9] 是一个公开可用的内窥镜手术数据集,源自 MICCAI 2017 [62] 和 2018 [63] 挑战赛。该数据集将 VQA 注释与边界框标签整合,创建视觉问题定位回答(VQLA)对,涵盖手术动作、目标组织、器械及其各自的边界框。

EndoVis-VQLA 中的图像分辨率为 1280×1024 像素。该数据集由两部分组成:包含 2007 帧的 EndoVis-18-VQLA 和包含 97 帧的 EndoVis-17-VQLA。

CoPESD [49] 是一个全面的多层次手术运动数据集,专门为在内窥镜黏膜下剥离(ESD)背景下训练 MLLMs 作为协同器而设计。它包含 17,679 张图像,伴随从超过 35 小时的 ESD 视频中衍生的详细运动注释。这些图像的分辨率为 1306×1009 像素。

运动注释包括目标组织、器械、手术运动、运动方向和相应的边界框信息。Cholec80-VQA [6] 是一个从 Cholec80 数据集 [64] 的 40 个视频序列生成的创新数据集,涵盖总共 21,591 帧。Cholec80-VQA 中的图像分辨率为 854×480 像素。

利用 Cholec80 数据集的原始工具操作和阶段注释,Cholec80-VQA 为每一帧提出两种类型的问答对:分类(具有 14 个唯一的单个单词答案)和句子(以完整句子形式呈现)。由于注释中缺乏定位信息且每张图像的内容较少,我们不使用 ChatGPT-4 对其进行扩展,而是直接将分类和句子用作短语问答和视觉问答的对话。

属性提取

为确保注释涵盖全面的手术信息,我们采用了从基本观察到动态操作和高级感知的分层属性分析框架,如图 3(a)所示。在观察层面,定义了基础属性,包括器械数量(IN,可见器械的计数)、器械类别(IC,器械类型的分类)和目标问题(TI,手术关注的解剖目标)。

操作层面侧重于动态行为和空间特征,如对象位置(OP,3×3 网格内的空间映射)、器械运动(IM,从运动推断的功能角色)和运动方向(MD,八个基本和对角线方向的轨迹)。最后,分析层面整合这些属性以支持语义推理,包括描述和更广泛的上下文推理等任务。

这种结构化设计实现了数据集内容的无缝集成,最大限度地从原始注释中提取手术信息。此外,我们开发了针对属性的 QA 模板,用于生成指令调优数据。这些属性的分布统计如图 3(c)所示。

图3. Surg-396K数据集的构建流程和分布统计概述。该流程包括五个关键步骤:注释属性分析、信息提取、指令调优数据生成、多样化对话生成和数据清洗。

多样化对话生成

通过属性进行信息提取获得的指令调优数据的表达格式仅限于人工设计的模板,导致结构同质化。为了模仿自然语言表达,我们通过 ChatGPT-4 进一步解释指令调优数据,并生成五种对话类型。这些对话类型的分布统计和风格如图 3(d)和表 7 所示。

短语问答旨在使 EndoChat 能够通过对手术图像的快速分析,为每个查询提供简洁、明确的答案。这种对话类型可以直接从指令调优数据中获取。此外,我们使用 ChatGPT-4 丰富了问题的多样性。

为了引导模型用单个单词或短语提供答案,我们在问题末尾引入任务特定提示 “用短语回答问题。”,其可以表示为:\(\text{Human} : T_q[\text{Prompt}] \backslash n \text{EndoChat} : T_a \backslash n\) (1)

详细描述提供全面的、基于视觉场景的响应,深入探究视觉场景的复杂细节。此类型的答案完全由 ChatGPT-4 使用充分利用指令调优数据的引导提示生成。

因此,我们确保响应涵盖相应图像中的所有属性。问题列表也使用 ChatGPT-4 进行了多样化。这种类型可以增强 EndoChat 表达复杂视觉信息的能力,就好像它正在实时观察场景一样。

视觉问答强调简单的问答对,提供有关手术场景的一般见解,无需特定定位。此模式与短语问答的不同之处在于允许响应中包含更多上下文信息,同时保持简洁性。

因此,视觉问答的生成过程比短语问答多一个步骤。具体而言,ChatGPT-4 用于将单个单词或短语响应扩展为完整句子,同时纳入指令调优数据中与描述和推理属性相关的内容。

基于区域的问答在问题中纳入定位信息,引导模型将注意力集中在图像的特定区域。与视觉问答相比,这种对话类型有助于对视觉内容进行有针对性的分析,精确定位手术器械的位置或特定组织的状况。

在文本表达方面,我们在目标的文本后插入其边界框,例如 “肾脏 \([x_1, y_1, x_2, y_2]\)”,其中\(x_1\)和\(y_1\)表示边界框左上角的坐标,\(x_2\)和\(y_2\)指定右下角的坐标。每个坐标值均归一化到区间 [0,1]。

定位问答仅通过边界框提供响应,训练 EndoChat 基于视觉内容和提出的问题提供准确的空间答案。我们还在问题末尾引入任务特定提示 “仅用边界框回答问题。”,以引导模型以边界框形式提供答案。这种对话类型的格式与公式(1)中的短语问答相同。

数据清洗

在生成多样化对话后,实施数据清洗过程以确保训练数据的完整性和可靠性。鉴于 Surg-396K 的大规模,我们以 1/5 的比例进行基于抽样的检查。

具体而言,我们手动审查抽样文本,评估其信息完整性、相关性和清晰度。信息完整性指文本是否包含所有基本内容,如操作和工具。我们为每个问答对分配对话类型标签,并通过验证内容是否与其分配的标签一致来评估相关性。

由于问答对使用 ChatGPT-4 进行了语义丰富,我们还检查丰富的文本是否语义清晰准确。在数据清洗过程中,我们记录频繁出现的问题,并对未抽样内容进行相应修改。此过程确保保留和修订的注释可以为 MLLM 训练提供有意义的信息。

EndoChat

EndoChat 的架构

内窥镜手术中的视觉定位对话涉及视觉和语言模态之间的复杂交互,需要全面理解内窥镜手术场景中不同对象或区域的知识。

因此,我们提出 EndoChat,这是一种新型的大型视觉 - 语言模型,能够参与有关内窥镜手术的视觉定位对话。给定输入图像,混合视觉编码器首先提取源令牌,表示为\(X_d \in \mathbb{R}^{N \times D \times L_1}\)和\(X_o \in \mathbb{R}^{N \times D \times L_2}\),其中 N 表示帧数,D 表示隐藏维度,\(L_1\)和\(L_2\)对应各自令牌集的序列长度。

随后,提取的源令牌由我们提出的混合视觉令牌引擎处理,该引擎通过生成额外的视觉令牌来增强表示。生成的增强图像令牌表示为\(X' \in \mathbb{R}^{N \times (D+m) \times (L_1+L_2)}\),其中 m 表示新生成的令牌数量。

这些丰富的视觉令牌随后与语言令牌对齐,并输入到语言模型中以生成最终响应。此外,我们引入视觉对比机制来减轻对象幻觉,进一步增强模型的视觉理解,并确保复杂内窥镜手术场景中视觉输入和语言输出之间的一致性。

混合视觉令牌引擎

在我们的 EndoChat 中,我们遵循 SPHINX,其混合视觉嵌入以从高分辨率子图像中获取更多尺度,从而增强高分辨率图像的编码。对于高分辨率输入图像,我们实施两条并行路径以生成五张相应的分辨率为 224×224 和 512×512 的图像。

然后,这些图像被馈送到由 DINOv2 [65] 和 OpenCLIP [66] 组成的混合视觉编码器,产生输出\(x_d\)和\(X_o\)。对于 MLLMs,视觉编码器通常在通过多层感知器(MLP)等操作提取聚合表示后,对图像令牌进行编码以总结视觉嵌入。

尽管这种直接表示计算效率高,但难以捕捉多尺度信息,并且经常忽略不同位置或区域之间的关键空间关系。因此,它可能使 LLM 混淆并未能充分利用其能力。为了解决这些限制,我们引入了混合视觉令牌引擎(MVTE)。MVTE 基于混合视觉编码器产生的源令牌动态生成全局视觉令牌,无缝集成并最大化多尺度视觉令牌的信息效用。

具体而言,如图 4 右下角所示,有两条并行路径处理来自混合编码器的源令牌\(x_d\)和\(X_o\)。在每条路径中,使用上下文 MLP 网络(Linear-ReLU-Linear) followed by Softmax 归一化来生成上下文注意力图 [67]。随后,我们使用矩阵乘法计算输出视觉令牌,这些令牌在空间上与其源令牌连接以获得组合令牌\(X'\):\(X' = \text{Softmax}(\text{MLP}(X)) \cdot X \oplus X \oplus X\) (2)

最后,我们在通道上连接两条路径的组合令牌\(X_o'\)和\(X_d'\),然后通过 MLP 投影器进行维度对齐,以获得最终的图像令牌\(\hat{X}\)。该过程可以通过以下公式描述:\(\hat{X} = \text{Proj}(X_o' \oplus X_d')\) (3)

MVTE 的加入使 LLM 能够生成更互补的特征,从而增强其对复杂内窥镜手术场景的理解,并提高复杂推理任务的有效性。

通过视觉对比缓解幻觉

参数化为 θ 的 MLLMs 擅长捕捉复杂的视觉模式 x 和文本查询 q,将它们转化为连贯的语言表示 y。具体而言,MLLMs 从概率分布中自回归地采样响应 y,基于 x 和 q 逐步预测下一个单词,表示为:\(y_t \sim p_\theta(y_t | x, q, y_{<t}), \propto \exp(\logit_\theta(y_t | x, q, y_{<t}))\) (4) 

其中\(y_t\)表示时间步 t 的令牌,\(y_{<t}\)表示直到时间步 t-1 的生成令牌序列。在内窥镜手术等具有挑战性的视觉场景中,MLLMs 容易出现 “对象幻觉”(Object Hallucination),这是由于它们依赖统计偏差和单模态先验知识。

这种依赖会导致生成的文本虽然语义连贯,但可能与给定图像中的对象不一致。由于内窥镜手术场景的复杂性,模糊的视觉特征可能导致 MLLMs 在生成输出时忽略关键视觉线索,转而依赖自然预训练数据集中的语言先验。

为解决 MLLMs 中的对象幻觉问题,我们引入模型输出的视觉对比机制,该机制基于原始和失真视觉输入生成的输出来对抗统计偏差和语言先验 [68]。

视觉对比是一种无需训练的方法,其核心是生成两个并行输出分布:一个基于原始视觉输入 x,另一个基于失真版本 x′。失真输入 x′ 通过向 x 应用可控高斯噪声生成,这会放大导致幻觉的语言先验和统计偏差。

对比概率分布 p 通过原始和失真视觉输入之间的对数差异计算如下:p(y∣x,x′,q)=softmax[(1+α)⋅logitθ​(y∣x,q)−α⋅logitθ​(y∣x′,q)]
(5)
其中 α 是一个超参数,用于调整两个分布之间的权重,α 值越高,两个分布之间的区分度越大。这种视觉对比作为一种纠正机制,通过与倾向于产生幻觉的分布对比来减少幻觉。

此外,为防止 p 惩罚有效输出并促进正确令牌的生成,引入了自适应约束 [69]:L(y<t​)={yt​∈L:pθ​(yt​∣x,q,y<t​)≥βmaxw​pθ​(w∣x,q,y<t​)},p(yt​∣x,x′,q)=0,如果 yt​∈/L(y<t​)​
(6)
其中 β∈[0,1] 控制下一个令牌分布的截断程度。β 越大,表示截断越激进,仅保留高概率令牌。结合自适应合理性约束可优化对比分布,增强决策信心。这会精简候选令牌池,通常保留单个高概率令牌,并抵消视觉对比的潜在不利影响,防止生成不可信令牌并保持内容完整性。

实现细节

我们采用 SPHINX 架构中的开源 LLaMA2-13B [50] 大语言模型作为 EndoChat 的基础组件。LLaMA2-13B 作为多样化视觉 - 语言任务的统一接口。

为确保模型响应一致且上下文有效,输入数据后附加任务特定提示,帮助引导 LLM 的响应。对于 LLM 微调,我们采用低秩适应(LoRA)[70] 技术,该技术引入两个较小矩阵作为原始大矩阵的低秩近似。

我们优化低秩矩阵的参数,而非预训练 LLaMA-2 中的所有参数。这种适应方法减少了训练时间和计算开销,同时保留了模型对通用对象类别和空间地标的广泛知识,从而增强其在内窥镜手术领域的视觉 - 语言推理能力。

为训练 LLM 和混合视觉令牌引擎,我们使用 1024×1024 的输入分辨率。训练过程在 Surg-396K 数据集上进行一个 epoch,使用四块 NVIDIA A800 GPU。初始学习率设置为 2×10−5,批量大小为 16,约需 20 小时完成。

http://www.xdnf.cn/news/669367.html

相关文章:

  • 【HW系列】—目录扫描、口令爆破、远程RCE流量特征
  • 攻防世界-ics-07
  • 【Web应用】基础篇04-功能详解-权限控制(创建菜单--分配角色--创建用户)
  • 使用 scikit-learn 库对乌克兰冲突事件数据集进行多维度分类分析
  • ABP VNext + Apache Flink 实时流计算:打造高可用“交易风控”系统
  • 【深度学习】9. CNN性能提升-轻量化模型专辑:SqueezeNet / MobileNet / ShuffleNet / EfficientNet
  • 汽车电子/电气(E/E)架构将朝着区域(分区)式架构方向发展
  • Filebeat es 同步服务器日志到es
  • C++ STL 容器:List 深度解析与实践指南
  • Linux编辑器——vim的使用
  • 文件上传白名单绕过(图片马 - 图片二次渲染绕过)
  • React从基础入门到高级实战:React 核心技术 - React 与 TypeScript:构建类型安全的应用
  • 第十章:构建之巅 · 打包与部署的终极试炼
  • uniapp-商城-72-shop(5-商品列表,步进器添加商品到的购物车实现)
  • Unsupervised Learning-Word Embedding
  • 如何提高CAD作图设计效率,技术分享
  • 每日算法 -【Swift 算法】实现回文数判断!
  • stm32f系列工程切换到H系列
  • 电芯单节精密焊接机:以先进功能与特点赋能电池制造科技升级
  • 传统数据表设计与Prompt驱动设计的范式对比:以NBA投篮数据表为例
  • PHPStudy 一键式网站搭建工具的下载使用
  • EfficientLLM: Efficiency in Large Language Models 高效大模型
  • AppArmor(Application Armor)是 Linux 内核的一个安全模块
  • 比亚迪“双剑”电池获中汽中心权威认证,堪称“移动安全堡垒”。
  • HTTPS 协议:数据传输安全的坚实堡垒
  • 视频监控汇聚平台EasyCVR工业与安全监控:防爆摄像机的安全应用与注意事项
  • 大模型(5)——编码器(Encoder)、解码器(Decoder)
  • 分布式爬虫监控架构设计
  • Camera相机人脸识别系列专题分析之一:人脸识别系列专题SOP及理论知识介绍
  • 用Qt/C++玩转观察者模式:一个会聊天的设计模式