10 大医学数据集汇总:覆盖问答/推理/真实临床记录/超声图像/CT 影像……
随着人工智能技术在医疗领域的深度融合与医学影像技术的持续革新,作为解锁生命奥秘的关键钥匙,医学数据正以爆发式的速度累积增长。它突破了传统医学研究的边界,为疾病诊疗与健康管理带来了革命性的变革。
在医学研究从经验驱动迈向数据驱动的进程中,基础研究工具的迭代速度逐渐放缓,医学数据集质量成为决定模型能否从理论构想走向临床实用的核心要素。 高质量的医学数据不仅能精准捕捉疾病特征,更能为个性化医疗方案的制定提供可靠支撑。
医学数据集的构建,绝非简单的病例罗列。相较于普通数据采集,医学数据的获取需要严格遵循伦理规范,确保患者隐私安全与数据使用合规。 为保障数据的科学性与有效性,需对数据采集流程进行标准化设计,合理分配训练集、验证集与测试集,并建立动态更新机制,定期补充新数据,以适应疾病谱变化与诊疗技术发展。面对疾病诊断、药物研发、健康预测等复杂医学任务,构建数据集时更要深度剖析各领域需求,整合多模态信息,模拟真实临床场景,为模型训练提供贴合实际的学习样本。
总而言之,在精准医疗时代,整个医学界对高质量医学数据集的需求呈现井喷式增长。对此,HyperAI 超神经为大家整理了一系列极具价值且应用广泛的医学数据集,涵盖癌症、心脏、骨 X 光等多个医学专业领域, 部分来自顶尖医学院校与权威医疗机构。
点击查看更多开源数据集:
https://go.hyper.ai/g9PvL
医学数据集汇总
1 JMED 中文真实医疗数据数据集
下载地址: https://go.hyper.ai/4jJTa
JMED 数据集是一个基于真实世界医疗数据分布的新型数据集,由 Citrus Team 于 2025 年构建,该数据集源自京东健康互联网医院的匿名医患对话,经过过滤以保留遵循标准化诊断工作流程的咨询。初始版本包含 1k 份高质量临床记录,涵盖所有年龄段(0-90 岁)和多个专业。每个问题包括 21 个回答选项。
与现有数据集不同,JMED 密切模拟真实的临床数据,同时促进有效的模型训练。虽然基于真实的会诊数据,但它并不是直接来自实际的医疗数据,因此研究团队可以整合模型训练所需的关键要素。
2 MedQA 医学文本问答数据集
预估大小: 125.64 MB
下载地址: https://go.hyper.ai/VfIWx
MedQA 数据集是一个面向医学领域的问答数据集,模拟了美国医疗执照考试(USMLE)的风格,由麻省理工大学和华中科技大学的研究团队于 2020 年发布,相关论文成果为「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」。
该数据集分别包含 12,723 、 34,251 和 14,123 个问题,旨在评估模型对医学知识的理解和应用能力。分为训练集、开发集和测试集,分别用于模型训练、验证和测试。
3 Medical O1 Reasoning SFT
医学推理数据集
预估大小: 21.71 MB
下载地址: https://go.hyper.ai/iVUWA
Medical o1 Reasoning SFT 数据集为香港中文大学和深圳市大数据研究院于 2024 年发布,相关论文成果为「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」。
该数据集专为微调 HuatuoGPT-o1 这一医学大语言模型而设计,旨在提升其在复杂医学推理任务中的表现。数据集的构建依赖于 GPT-4o,通过搜索可验证的医学问题并利用医学验证器进行答案验证,确保了数据的准确性和可靠性。
4 ROCOv2 Radiology
多模态医学图像数据集
预估大小: 17.29 GB
下载地址: https://go.hyper.ai/xs4zS
ROCOv2(Radiology Object in COntext Version 2)是一个创新的多模态医学图像数据集,它融合了放射学图像与相关的医学概念和描述。该数据集从 PMC Open Access 子集提取放射图像和相关医学概念及说明,在 ROCO 数据集基础上改进了概念提取和过滤。
数据集包含 79,789 张放射学图像,涵盖多种临床模式、解剖区域和方向性(针对 X 射线),每张图像都有相应的医学概念说明。可用于训练图像注释模型、多标签图像分类、医学领域模型预训练、深度学习模型评估、图像检索和标题生成等。
5 MedCalc-Bench 医疗计算数据集
预估大小: 16.04 MB
下载地址: https://go.hyper.ai/pDbcu
MedCalc-Bench 是一个专门用于评估大语言模型 (LLMs) 在医疗计算能力方面的数据集,由美国国立卫生研究院国家医学图书馆 (National Library of Medicine, National Institutes of Health) 和弗吉尼亚大学 (University of Virginia) 等 9 个机构于 2024 年共同发布,相关论文成果为「MEDCALC-BENCH: Evaluating Large Language Models for Medical Calculations」,已被 NeurIPS 2024 接受。
该数据集包含了 10,055 个训练实例和 1,047 个测试实例,涵盖了 55 种不同的计算任务。每个实例都包括患者的笔记、一个计算特定临床值的问题、最终答案值以及逐步解决方案。分为训练集和测试集,可以用于微调 LLMs,以提高它们在医疗计算任务中的表现。
6 AI Medical Chatbot 医学对话数据集
预估大小: 118.35 MB
下载地址: https://go.hyper.ai/W5OnS
这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。
7 TCGA-ESCA 癌症 CT 影像
预估大小: 3.79 GB
下载地址: https://go.hyper.ai/eJWQt
TCGA – ESCA 癌症 CT 影像是食道癌相关的数据集,由 GDC Data Portal 发布。包含来自 185 人共 5271 个数据文件,该数据集旨在对癌症诊治过程进行全程数字化跟踪,并以数字档案的形式记录检查结果、处方和疗效。
8 TCGA-KICH 癌症 CT 影像
预估大小: 1.62 GB
下载地址: https://go.hyper.ai/iVUWA
TCGA – KICH 癌症 CT 影像是腺瘤和腺癌相关的数据集,由 GDC Data Portal 发布。包含来自 113 人共 2,325 个数据文件,该数据集旨在对癌症诊治过程进行全程数字化跟踪,并以数字档案的形式记录检查结果、处方和疗效。
9 癌症 CT 图像数据
预估大小: 367.88 MB
下载地址: https://go.hyper.ai/tsMh5
CT Medical Image Analysis Tutorial: CT images from cancer imaging archive with contrast and patient age Dataset 是一个癌症 CT 图像数据集,由 Kaggle 于 2016 年发布,相关论文有「Radiology Data from The Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD] collection」。
其包含 69 位患者的 475 个病例 CT 影响,用于检查与对比患者年龄和 CT 图像数据之间的联系,它是 TCGA-LUAD 肺癌 CT 影响数据库的一部分。
10 MURA 骨 X 光数据集
预估大小: 6.74 GB
下载地址: https://go.hyper.ai/DlGYH
MURA Dataset 是一个大型骨骼 X 光片数据集,旨在通过 X 光片确定骨骼是否正常,该数据集由斯坦福大学于 2017 年发布,相关论文有「MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs」。
发布者希望该数据集可以在医学成像技术上取得重大进展,这些技术可以在专家层面进行诊断,以改善放射科医生人数有限地区的医疗服务。