当前位置: 首页 > ai >正文

Science Advances | MIST:一种新型深度学习框架可解释的单细胞T细胞多组学整合分析工具

T细胞的功能高度依赖其T细胞受体(TCR),后者通过识别抗原调控免疫应答。近年来,单细胞测序技术的进步使得在单细胞分辨率下同时分析转录组和TCR成为可能。然而,现有方法大多将scRNA-seq和scTCR-seq视为独立数据,仅基于TCR克隆型进行联合分析。

近日,暨南大学罗钧洪团队在《Science Advances》上发表了题为"MIST: An interpretable and flexible deep learning framework for single-T cell transcriptome and receptor analysis"的研究成果。该研究基于变分自编码器(VAE)开发了MIST(Multi-Insight for T cell)深度学习模型,用于整合单细胞RNA测序(scRNA-seq)和T细胞受体测序(scTCR-seq)数据。MIST通过构建转录组、TCR和联合潜在空间,实现了跨组学数据的深度融合,能够精准解析T细胞的功能状态、克隆扩增模式及抗原特异性,并显著提升了现有方法在数据整合与生物学解释方面的能力。

 

MIST: An interpretable and flexible deep learning framework for single-T cell transcriptome and receptor analysis

MIST框架的设计与功能

MIST(Multi-insight for T cell)是一种基于变分自编码器(VAE)架构的深度学习框架,旨在整合单T细胞的转录组和TCR数据(图1A)。

 

图1:MIST模型用于联合scRNA-seq与scTCR-seq数据分析

 

MIST通过三个潜在空间(GEX、TCR和联合潜在空间)实现多角度分析:

1)GEX潜在空间:通过自注意力机制和全连接神经网络编码转录组数据,有效去除批次效应(图2A),并识别细胞类型特异性基因表达模式(图2E, F)。

 

图2:GEX潜在空间在scRNA-seq数据分析中的应用

2)TCR潜在空间:将TCR序列中的氨基酸和V/J基因嵌入为向量,捕捉CDR3序列的生化特性(图3A),并通过注意力权重揭示抗原特异性相关的保守氨基酸基序(图3F)。

 

图3:联合潜在空间在抗原特异性T细胞组合分析中的应用

3)联合潜在空间:整合GEX和TCR特征,用于聚类、伪时间分析和抗原特异性T细胞分析(图1A右)。

MIST的模块化设计支持多种下游分析,包括聚类、批次效应校正、GEX插补和TCR相似性计算。其自注意力机制增强了模型的可解释性,例如通过基因间注意力权重揭示共表达关系(图2G)。

模型验证与应用

1)单细胞GEX分析:在10x Genomics的20万CD8+ T细胞数据集中,MIST成功重建了稀疏的scRNA-seq数据(图1B, D),并通过GEX潜在空间实现了跨供体的细胞混合(图2A),而原始表达数据未能完全消除批次效应(图2B)。

2)TCR语义解析:MIST的氨基酸嵌入反映了其生化特性(图3A),且TCR潜在空间能够区分不同抗原特异性的T细胞(图3B, E)。例如,针对流感抗原A0201_GILGFVFTL的T细胞表现出较小的细胞间距离,反映了克隆扩增后的转录组和TCR一致性(图3E)。

3)联合分析:在非小细胞肺癌(NSCLC)免疫治疗数据中,联合潜在空间揭示了CXCL13+ T细胞的异质性及其与抗PD-1治疗的关联(图4A, 5A)。

 

图4:潜在空间在非小细胞肺癌患者抗PD-1治疗T细胞表征中的应用

这些细胞中,CXCL13+-post T细胞表现出效应记忆表型,而CXCL13+cluster1细胞则具有调节性T细胞特征(图5E, G),这一发现为原始研究未报告的结论提供了新见解。

 

图5:MIST在抗PD-1治疗响应性T细胞发现与预测中的应用

4)COVID-19研究:在COVID-19患者PBMC数据中,MIST通过联合潜在空间鉴定出严重/危重症患者特有的T细胞簇(如簇22-24),这些细胞高表达干扰素响应基因和NKG2D共刺激受体KLRK1(图6F, H),提示其在病毒免疫中的重要作用。

 

图6:COVID-19患者PBMC样本大尺度T细胞数据集分析

讨论与比较

MIST相较于现有工具(如CoNGA、Tessa和scNAT)具有显著优势:

1)灵活性:通过独立潜在空间支持多模态数据的并行分析,而scNAT仅提供单一联合表示。

2)可解释性:自注意力机制揭示了基因共表达和TCR基序的生物学意义,而其他模型缺乏此类功能。

3)鲁棒性:通过DSBN层消除批次效应,适用于复杂疾病微环境(如肿瘤)中的T细胞分析。

局限性包括无法跨模态生成数据(如从GEX预测TCR)及较长的训练时间。未来,MIST可扩展至B细胞受体或γδ TCR分析,并可能整合单细胞ATAC-seq数据。

结论

MIST为单细胞分辨率下的T细胞研究提供了灵活、可解释且鲁棒的框架,通过整合转录组和TCR特征,揭示了T细胞在抗原特异性、免疫治疗响应和疾病异质性中的新机制。

关注我们,获取更多前沿生物信息学研究成果!有什么想法可以在评论区评论,也可以私信获取原文PDF哦!

 

阔跃生物公开课,为您解读国自然热点,免费思路答疑!助力科研突破!

 

 

http://www.xdnf.cn/news/7864.html

相关文章:

  • 基于Java( GUI )实现多人在线聊天软件
  • UE5.6新版本—— 动画光照系统重点更新
  • 3.2.3
  • SMT贴片工厂核心工艺与质量控制解析
  • LeetCode-链表-合并两个有序链表
  • GO语言学习(七)
  • 野火RK3588部署yolov8
  • 【notepad++如何设置成中文界面呢?】
  • 解决使用HBuilder X开发时uView组件不生效的问题
  • python爬虫和逆向:百度翻译数据采集的几种方式
  • Spring Boot AI 之 Chat Client API 使用大全
  • 前端面试题
  • C# AOP编程
  • 【亲测有效】Ubuntu22.04安装黑屏重启进入系统卡死
  • 如果有三个服务实例部署在三台不同的服务器上,这三个服务实例的本地缓存,是存储一模一样的数据?还是各自只存一部分?
  • 《易经》的数学表达:初级版和高级版
  • 回溯算法——排列篇
  • 新导游入行规范与职业发展指导
  • auto关键字解析
  • 时源芯微|π型LC滤波电路
  • 力扣面试150题--填充每个节点的下一个右侧节点指针 II
  • SPI协议软件实现 W25QXX flash 存储器
  • 【写在创作纪念日】基于SpringBoot和PostGIS的各省东西南北四至极点区县可视化
  • C++函数重载
  • 2025年保姆级教程:Powershell命令补全、主题美化、文件夹美化及Git扩展
  • 线端子人工做线操作介绍
  • C++学习:六个月从基础到就业——多线程编程:条件变量
  • 诊断仪进行CAN采样点测试的原理
  • 管理会议最佳实践:高效协同与价值最大化
  • ctfhub技能书http协议