当前位置：首页 > news >正文

谷歌medgemma-27b-text-it医疗大模型论文速读：面向医学视觉问答的语义标签知识增强数据集SLAKE

news 2025/7/13 3:26:56

SLAKE: A SEMANTICALLY-LABELED KNOWLEDGE-ENHANCED DATASET FOR MEDICAL VISUAL QUESTION ANSWERING

1. 引言

论文指出，医疗视觉问答（Med-VQA）在医疗保健领域具有巨大潜力，但目前该技术的发展受到缺乏高质量公开数据集的限制。为了推动 Med-VQA 系统的开发和评估，作者提出了一个大型双语数据集 SLAKE，其中包含由经验丰富的医生标注的全面语义标签以及一个新的结构化医学知识库。SLAKE 数据集涵盖了比现有数据集更丰富的人体部位和更多的模态类型。

2. SLAKE 数据集

2.1 图像获取与标注

作者从三个开源数据集中选取了涵盖健康和非健康案例的放射影像。共标注了 642 张图像，涉及全身 39 个器官和 12 种疾病。这些疾病包括癌症和胸部疾病等。图像包括头部 CT 或 MRI、颈部 CT、胸部 X 光或 CT、腹部 CT 或 MRI 以及盆腔 CT。所有 CT 和 MRI 都是轴向单切片。

2.2 知识图谱构建

为了回答需要外部医学知识的问题，作者构建了一个以器官和相关疾病为中心的医学知识图谱。从大规模知识库 OwnThink 中提取了 52.6K 个三元组 <head, relation, tail>，并手动筛选出与医学影像相关的实体。最终获得了 2603 个英文三元组和 2629 个中文三元组。

2.3 问题生成

问题由经验丰富的医生提出。作者开发了一个标注系统，预定义了每个身体部位的问题模板和十种不同的内容类型（如模态、位置、颜色等）。医生可以根据个人临床经验选择、修改或重写候选问题。为减少数据集的统计偏差，作者使答案分布保持平衡。

2.4 数据集分割

数据集被分为训练集（70%）、验证集（15%）和测试集（15%）。在 8 个类别中按照 75:15:15 的比例分割图像。测试集中答案必须出现在训练集中。

3. 实验

3.1 实验设置

作者在 SLAKE 数据集上使用堆叠注意力网络（SAN）进行实验。使用 VGG16 提取放射影像的视觉特征。对于双语问题，设计了双语分词器创建双语文本嵌入。然后应用 1024D LSTM 提取文本语义并分类问题类型。

3.2 数据集分析

视觉问题

在表 4 中报告了视觉问题的准确率。基线模型在英文和中文上的准确率约为 73%，与临床标准仍有较大差距，表明 SLAKE 具有挑战性。使用语义视觉标注的模型（VGGseg+SAN）相比基线模型（VGG+SAN）准确率提高了 2.6%，显示出语义视觉标注可以提高模型的推理能力。

知识问题

作者利用自建的医学知识图谱回答知识问题。通过 TransE 方法初始化知识图谱中实体的嵌入，并使用两个 LSTM 分别预测问题的 “关系” 和 “尾部” 字词。结果表明，使用知识图谱的模型相比不使用知识图谱的模型准确率提高了 2.0%，证明了知识图谱的有效性。

4. 结论

作者介绍了一个新的大型双语数据集 SLAKE，用于促进 Med-VQA 系统的训练和评估。SLAKE 是一个多样化且平衡的数据集，包含丰富的视觉和文本标注以及独特的医学知识图谱。实验表明，语义标注和外部知识可以显著提高标准 Med-VQA 模型的性能。

5. 合规与伦理标准

研究使用了开放获取的人类受试者数据，无需伦理批准。

核心技术汇总表

在这里插入图片描述

http://www.xdnf.cn/news/580051.html

相关文章：

【Linux】进程间通信（四）：System V标准（共享内存、消息队列、信息量）

[Git] 认识 Git 的三大区域文件的修改和提交

linux杀死进程自身

docker network 自定义网络配置与管理指南

数字孪生技术如何重塑能源产业？

生成树协议（STP）配置详解：避免网络环路的最佳实践

java基础(api)

第八天的尝试

印度语言指令驱动的无人机导航！UAV-VLN：端到端视觉语言导航助力无人机自主飞行

AllToAll通信为什么用于EP并行？

Linux性能监控工具nmon

【开源解析】基于深度学习的双色球预测系统：从数据获取到可视化分析

Axure系统原型设计首页模版方案

InetAddress 类详解

AI大模型技术全景解析：核心原理与关键技术拆解

【C++ 真题】P5736 【深基7.例2】质数筛

HJ23 删除字符串中出现次数最少的字符【牛客网】

《Effective Java（第三版）》笔记

ESP32-S3 (ESP IDF 5.4.1 - LVGL 9.2.0)九宫格拼音输入法

工业控制解决方案三段论

Java 实现四种单例（都是线程安全）

【Linux】了解消息队列 system V信号量 IPC原理

常见字符串相似度算法详解

使用Pandoc实现Markdown和Word文档的双向转换

基于LiveData和ViewModel的路线管理实现（带PopupWindow删除功能）

人工智能价值：技术革命下的职业新坐标

【java】Java注解

通信协议详解（分层技术解析）

4-码蹄集600题基础python篇