当前位置: 首页 > java >正文

可下载或通过爬虫获取疾病相关数据的网站及平台,涵盖临床数据、基因关联、药品信息等方向,并附注数据特点与获取方式:(不公开)

一、综合性疾病数据库

  1. MalaCards

    • 数据内容:集成21,787种疾病的症状、基因、药物、临床试验等信息,支持罕见病和复杂疾病查询 。
    • 获取方式
      • 直接访问官网 https://www.malacards.org 手动下载;
      • 通过Python爬虫解析本地保存的HTML页面(需点击“Show All”获取完整数据) 。
    • 注意:需处理反爬机制,建议下载本地页面后解析。
  2. GeneCards Suite

    • 关联数据库:包含GeneCards(基因功能)、MalaCards(疾病)、PathCards(调控网络)等,提供疾病与基因的关联分析 。
    • 适用场景:研究疾病遗传机制或药物靶点。

二、医学影像与临床数据集

  1. 医学影像数据集集锦(GitHub)

    • 数据内容:收录80+个公开医学影像数据集,涵盖肝脏、肺部等器官的CT/MRI数据,标注类型包括分割、分类等。
    • 获取方式
      • 通过GitHub项目 linhandev/dataset 查看列表;
      • 部分数据集提供Aistudio不限速下载链接(如LiTS、Sliver07)。
  2. 国家人口健康科学数据中心

    • 数据内容:汇交人口健康领域的科学数据,包括疾病调查、临床记录等 。
    • 获取方式:需通过官网 https://www.ncmi.cn 提交数据汇交申请或查询公开数据集。

三、药品与疾病关联数据

  1. 丁香园医疗数据开放平台

    • 数据内容:提供药品说明书、疾病科普、医院信息等结构化数据,覆盖210万+医生用户画像 。
    • 适用场景:药品研发或医保核赔等商业分析。
    • 接口服务:支持通过API获取数据(需注册开发者账号) 。
  2. 无码科技药品数据库

    • 数据内容:收录17万+药品详细信息,包括适应症、禁忌、药理毒理等。
    • 获取方式:通过API查询(如“盐酸二甲双胍片”的完整说明书)。

四、健康医疗大数据平台

  1. 浪潮健康医疗大数据平台(HDSP 2.0)

    • 数据内容:整合区域医疗数据,支持疾病分布、资源分配等分析,适用于公共卫生研究。
    • 获取限制:需与平台合作(如政府或医疗机构)申请数据权限。
  2. 北京大学健康医疗大数据平台

    • 数据内容:包含多源异构临床数据(如NCIS医疗质量数据),支持高性能计算分析 。
    • 适用场景:学术研究需通过伦理审查并申请访问 。

五、其他工具与注意事项

  • 爬虫技术建议
    • 针对反爬网站(如GeneCards),可优先下载本地页面再解析 ;
    • 使用Python库(如BeautifulSoup)提取HTML中的表格数据 。
  • 合规性
    • 遵循《人类遗传资源管理条例》等法规,避免敏感数据滥用 ;
    • 商业用途需获得平台授权(如丁香园API) 。

 

http://www.xdnf.cn/news/15421.html

相关文章:

  • Process Lasso:提升电脑性能的得力助手
  • (3)从零开发 Chrome 插件:网页图片的批量下载
  • 辨析git reset三种模式以及和git revert的区别:回退到指定版本和撤销指定版本的操作
  • 【Ubuntu22.04】repo安装方法
  • 基于STM32的智能火灾报警系统设计
  • AI|大模型入门(六):GPT→盘古,国内外大模型矩阵速览
  • kotlin布局交互
  • 响应式编程入门教程第三节:ReactiveCommand 与 UI 交互
  • 【PTA数据结构 | C语言版】创建哈夫曼树
  • 医疗数据分析中标准化的作用
  • Java项目:基于SSM框架实现的学生档案管理系统【ssm+B/S架构+源码+数据库+毕业论文+开题报告】
  • 剑指offer62_骰子的点数
  • Vue3入门-指令
  • brupsuite使用中遇到的一些问题(bp启动后浏览器无法连接)/如何导入证书
  • 智能体技术深度解析:从概念到企业级搭建指南
  • 安全参綉25暑假第一次作业
  • Student后台管理系统查询接口
  • CentOS服务器安装Supervisor使队列可以在后台运行
  • GAMES101 lec2-数学基础1(线性代数)
  • 为何说分布式 AI 推理已成为下一代计算方式
  • 特殊的整数-水仙花数
  • 【c++】c++11新特性(右值引用和移动语义)
  • Java报表导出框架
  • 详解BIO,NIO,AIO
  • 【git fetch submodule报错】Errors during submodule fetch 如何解决?
  • 【Java EE】多线程-初阶 认识线程(Thread)
  • urlencode、html实体编码、unicode
  • 进程---基础知识+命令+函数(fork+getpid+exit+wait+exec)
  • ACL流量控制实验
  • 12.如何判断字符串是否为空?