谷歌medgemma-27b-text-it医疗大模型论文速读:面向医学视觉问答的语义标签知识增强数据集SLAKE
SLAKE: A SEMANTICALLY-LABELED KNOWLEDGE-ENHANCED DATASET FOR MEDICAL VISUAL QUESTION ANSWERING
1. 引言
论文指出,医疗视觉问答(Med-VQA)在医疗保健领域具有巨大潜力,但目前该技术的发展受到缺乏高质量公开数据集的限制。为了推动 Med-VQA 系统的开发和评估,作者提出了一个大型双语数据集 SLAKE,其中包含由经验丰富的医生标注的全面语义标签以及一个新的结构化医学知识库。SLAKE 数据集涵盖了比现有数据集更丰富的人体部位和更多的模态类型。
2. SLAKE 数据集
2.1 图像获取与标注
作者从三个开源数据集中选取了涵盖健康和非健康案例的放射影像。共标注了 642 张图像,涉及全身 39 个器官和 12 种疾病。这些疾病包括癌症和胸部疾病等。图像包括头部 CT 或 MRI、颈部 CT、胸部 X 光或 CT、腹部 CT 或 MRI 以及盆腔 CT。所有 CT 和 MRI 都是轴向单切片。
2.2 知识图谱构建
为了回答需要外部医学知识的问题,作者构建了一个以器官和相关疾病为中心的医学知识图谱。从大规模知识库 OwnThink 中提取了 52.6K 个三元组 <head, relation, tail>,并手动筛选出与医学影像相关的实体。最终获得了 2603 个英文三元组和 2629 个中文三元组。
2.3 问题生成
问题由经验丰富的医生提出。作者开发了一个标注系统,预定义了每个身体部位的问题模板和十种不同的内容类型(如模态、位置、颜色等)。医生可以根据个人临床经验选择、修改或重写候选问题。为减少数据集的统计偏差,作者使答案分布保持平衡。
2.4 数据集分割
数据集被分为训练集(70%)、验证集(15%)和测试集(15%)。在 8 个类别中按照 75:15:15 的比例分割图像。测试集中答案必须出现在训练集中。
3. 实验
3.1 实验设置
作者在 SLAKE 数据集上使用堆叠注意力网络(SAN)进行实验。使用 VGG16 提取放射影像的视觉特征。对于双语问题,设计了双语分词器创建双语文本嵌入。然后应用 1024D LSTM 提取文本语义并分类问题类型。
3.2 数据集分析
视觉问题
在表 4 中报告了视觉问题的准确率。基线模型在英文和中文上的准确率约为 73%,与临床标准仍有较大差距,表明 SLAKE 具有挑战性。使用语义视觉标注的模型(VGGseg+SAN)相比基线模型(VGG+SAN)准确率提高了 2.6%,显示出语义视觉标注可以提高模型的推理能力。
知识问题
作者利用自建的医学知识图谱回答知识问题。通过 TransE 方法初始化知识图谱中实体的嵌入,并使用两个 LSTM 分别预测问题的 “关系” 和 “尾部” 字词。结果表明,使用知识图谱的模型相比不使用知识图谱的模型准确率提高了 2.0%,证明了知识图谱的有效性。
4. 结论
作者介绍了一个新的大型双语数据集 SLAKE,用于促进 Med-VQA 系统的训练和评估。SLAKE 是一个多样化且平衡的数据集,包含丰富的视觉和文本标注以及独特的医学知识图谱。实验表明,语义标注和外部知识可以显著提高标准 Med-VQA 模型的性能。
5. 合规与伦理标准
研究使用了开放获取的人类受试者数据,无需伦理批准。