Science Advances | MIST:一种新型深度学习框架可解释的单细胞T细胞多组学整合分析工具
T细胞的功能高度依赖其T细胞受体(TCR),后者通过识别抗原调控免疫应答。近年来,单细胞测序技术的进步使得在单细胞分辨率下同时分析转录组和TCR成为可能。然而,现有方法大多将scRNA-seq和scTCR-seq视为独立数据,仅基于TCR克隆型进行联合分析。
近日,暨南大学罗钧洪团队在《Science Advances》上发表了题为"MIST: An interpretable and flexible deep learning framework for single-T cell transcriptome and receptor analysis"的研究成果。该研究基于变分自编码器(VAE)开发了MIST(Multi-Insight for T cell)深度学习模型,用于整合单细胞RNA测序(scRNA-seq)和T细胞受体测序(scTCR-seq)数据。MIST通过构建转录组、TCR和联合潜在空间,实现了跨组学数据的深度融合,能够精准解析T细胞的功能状态、克隆扩增模式及抗原特异性,并显著提升了现有方法在数据整合与生物学解释方面的能力。
MIST: An interpretable and flexible deep learning framework for single-T cell transcriptome and receptor analysis
MIST框架的设计与功能
MIST(Multi-insight for T cell)是一种基于变分自编码器(VAE)架构的深度学习框架,旨在整合单T细胞的转录组和TCR数据(图1A)。
图1:MIST模型用于联合scRNA-seq与scTCR-seq数据分析
MIST通过三个潜在空间(GEX、TCR和联合潜在空间)实现多角度分析:
1)GEX潜在空间:通过自注意力机制和全连接神经网络编码转录组数据,有效去除批次效应(图2A),并识别细胞类型特异性基因表达模式(图2E, F)。
图2:GEX潜在空间在scRNA-seq数据分析中的应用
2)TCR潜在空间:将TCR序列中的氨基酸和V/J基因嵌入为向量,捕捉CDR3序列的生化特性(图3A),并通过注意力权重揭示抗原特异性相关的保守氨基酸基序(图3F)。
图3:联合潜在空间在抗原特异性T细胞组合分析中的应用
3)联合潜在空间:整合GEX和TCR特征,用于聚类、伪时间分析和抗原特异性T细胞分析(图1A右)。
MIST的模块化设计支持多种下游分析,包括聚类、批次效应校正、GEX插补和TCR相似性计算。其自注意力机制增强了模型的可解释性,例如通过基因间注意力权重揭示共表达关系(图2G)。
模型验证与应用
1)单细胞GEX分析:在10x Genomics的20万CD8+ T细胞数据集中,MIST成功重建了稀疏的scRNA-seq数据(图1B, D),并通过GEX潜在空间实现了跨供体的细胞混合(图2A),而原始表达数据未能完全消除批次效应(图2B)。
2)TCR语义解析:MIST的氨基酸嵌入反映了其生化特性(图3A),且TCR潜在空间能够区分不同抗原特异性的T细胞(图3B, E)。例如,针对流感抗原A0201_GILGFVFTL的T细胞表现出较小的细胞间距离,反映了克隆扩增后的转录组和TCR一致性(图3E)。
3)联合分析:在非小细胞肺癌(NSCLC)免疫治疗数据中,联合潜在空间揭示了CXCL13+ T细胞的异质性及其与抗PD-1治疗的关联(图4A, 5A)。
图4:潜在空间在非小细胞肺癌患者抗PD-1治疗T细胞表征中的应用
这些细胞中,CXCL13+-post T细胞表现出效应记忆表型,而CXCL13+cluster1细胞则具有调节性T细胞特征(图5E, G),这一发现为原始研究未报告的结论提供了新见解。
图5:MIST在抗PD-1治疗响应性T细胞发现与预测中的应用
4)COVID-19研究:在COVID-19患者PBMC数据中,MIST通过联合潜在空间鉴定出严重/危重症患者特有的T细胞簇(如簇22-24),这些细胞高表达干扰素响应基因和NKG2D共刺激受体KLRK1(图6F, H),提示其在病毒免疫中的重要作用。
图6:COVID-19患者PBMC样本大尺度T细胞数据集分析
讨论与比较
MIST相较于现有工具(如CoNGA、Tessa和scNAT)具有显著优势:
1)灵活性:通过独立潜在空间支持多模态数据的并行分析,而scNAT仅提供单一联合表示。
2)可解释性:自注意力机制揭示了基因共表达和TCR基序的生物学意义,而其他模型缺乏此类功能。
3)鲁棒性:通过DSBN层消除批次效应,适用于复杂疾病微环境(如肿瘤)中的T细胞分析。
局限性包括无法跨模态生成数据(如从GEX预测TCR)及较长的训练时间。未来,MIST可扩展至B细胞受体或γδ TCR分析,并可能整合单细胞ATAC-seq数据。
结论
MIST为单细胞分辨率下的T细胞研究提供了灵活、可解释且鲁棒的框架,通过整合转录组和TCR特征,揭示了T细胞在抗原特异性、免疫治疗响应和疾病异质性中的新机制。
关注我们,获取更多前沿生物信息学研究成果!有什么想法可以在评论区评论,也可以私信获取原文PDF哦!
阔跃生物公开课,为您解读国自然热点,免费思路答疑!助力科研突破!