当前位置: 首页 > web >正文

scGPT-spatial:持续预训练scGPT用于空间转录组

空间转录组学已成为一种关键技术,可在细胞的空间环境中对其基因表达进行分析。公开可用的空间数据的迅速增长,为我们进一步理解驱动细胞命运决定和疾病进展的微环境提供了契机。然而,现有的基础模型大多是在scRNA-seq数据上进行预训练的,无法解析样本之间的空间关系,也无法捕捉来自不同测序协议的独特分布特征。scGPT-spatial是一种专为空间转录组学设计的专用基础模型,它在scGPT上进行持续预训练。还精心整理了SpatialHuman30M数据集,这是一个综合性的空间转录组学数据集,包含3000万个空间转录组学图谱,涵盖了基于成像和基于测序的两种协议。为了便于数据整合,scGPT-spatial引入了一种新颖的专家混合(MoE)解码器,该解码器可自适应地引导样本,以实现对基因表达图谱进行基于测序协议的感知解码。此外,scGPT-spatial采用了一种空间感知采样策略,以及一种新颖的基于邻域的训练目标,以便更好地捕捉组织内细胞状态之间的空间共定位模式。实证评估表明,scGPT-spatial能够在多切片和多模态设置下稳健地整合空间数据,并有效地支持细胞类型反卷积和结合背景信息的缺失基因表达插补,性能优于许多现有方法。

目录

  • 方法概述
  • 预训练数据收集
  • 关于MoE
  • 关于空间感知采样

方法概述

scGPT-spatial通过持续预训练,将经过预训练的scGPT 扩展应用于空间组学领域(图1a)。空间转录组学带来了与单细胞RNA测序数据在本质上不同的独特复杂性,这主要是因为其纳入了空间背景信息以及特定测序协议带来的偏差。基于从单细胞预训练中获得的大量先验知识,scGPT-spatial首先使用scGPT的Transformer权重进行初始化,然后逐步更新,以便从多样化的数据语料库中逐步学习空间特征。

精心整理了一个大规模的持续预训练数据集——SpatialHuman30M,该数据集包含超过3000万个在其空间背景下富集的细胞或spot。为了提高在不同测序协议下的通用性,SpatialHuman30M纳入了四种空间检测类型:Visium、Visium HD、MERFISH和Xenium(图1a)。SpatialHuman30M从821张独特的空间载片中采集了20多种器官和组织的数据,涵盖了包括健康、癌症以及其他患病状况等多种生物学背景。通过在这个异质语料库上进行持续预训练,scGPT-spatial能够学习到一个跨越不同测序协议的统一嵌入空间,有效地弥合了基于测序和基于成像的模态之间的差距。

fig1a

  • scGPT-spatial的持续预训练和微调框架概述。在持续预训练过程中,scGPT-spatial使用scGPT的模型权重进行初始化,然后在精心整理的SpatialHuman30M数据集上进一步训练。该模型可以进一步微调,以支持多项下游任务,包括细胞类型聚类、细胞类型反卷积和基因插补。

scGPT-spatial具备两项专门为空间组学数据预训练而设计的新特性。首先,该模型配备了一个专家混合(MoE)解码器,其中包含多个专家模块,用于捕捉特定模式的特征。具体而言,如图1b所示,来自每个测序协议的数据可以被路由到特定的解码器专家模块,以进行专门的表达值解码。这一架构创新增强了解码器对多模式数据进行建模的能力,同时支持来自共享Transformer层的统一嵌入(图1b)。其次,为了促进具有空间感知能力的学习,该模型使用从单个切片局部区域采样的空间“数据块”进行训练。这种基于坐标的采样策略还支持空间掩码训练,即模型会基于每个数据块内相邻位点的嵌入来重构中心位点的表达谱,从而实现优化(图1b)。这种具有空间感知能力的采样和训练策略使模型能够识别空间邻域中的微环境和细胞类型共定位模式。此外,scGPT-spatial避免对空间坐标进行显式编码,从而确保了模型在不同载片之间的通用性。这些受空间启发的持续预训练调整方法,有效地促进了不同空间模式的协调统一。
fig1b

在大规模空间语料库上进行持续预训练后,scGPT-spatial会生成强大的空间位点嵌入,从而提升各种下游应用的效果(图1a)。这些位点嵌入可以轻松地以零样本的方式提取出来,用于整合多切片或多模态的空间数据。该模型还可以进一步微调,以支持诸如空间域聚类、细胞类型反卷积和基因表达插补等任务。值得注意的是,持续预训练策略使scGPT-spatial具备了跨模式的泛化能力,有助于整合来自基于测序和基于成像的空间转录组学技术的数据。在预训练阶段所建立的这种灵活性确保了针对特定任务的微调既有效又高效,只需极少的额外数据或计算资源,同时还能提升整体性能。因此,scGPT-spatial提供了一个全面的框架,将受空间启发的预训练和微调相结合,从而充分挖掘空间转录组学数据在广泛的生物学研究中的潜力。

预训练数据收集

SpatialHuman30M,它由源自人体组织的3000万个细胞和位点组成。SpatialHuman30M数据集包含821张单独的载玻片,代表了20多种器官和组织,主要涵盖肺、乳腺、结肠、肾脏、子宫、扁桃体、前列腺、肝脏、大脑、卵巢、胰腺和皮肤等组织和器官。

SpatialHuman30M的特点是纳入了四种广泛使用的空间测序协议:Visium、Visium HD、Xenium和MERFISH。基于成像的测序协议Xenium和MERFISH所包含的细胞数量分别占细胞总数的48%和40%。按细胞数量计算,Visium和Visium HD占语料库的12%,这些基于测序技术的数据来自602张独特的载玻片,进一步提高了这个持续预训练语料库的多样性。

与scGPT-human中仅关注正常状态的数据收集策略不同,这一阶段的数据处理纳入了来自正常状态(12%)、癌变状态(75%)和其他患病状态(13%)的组织样本。这种全面的方法是由于空间分析技术日益增长的潜力及其与临床的相关性所驱动的,尤其是在肿瘤学和其他临床研究领域。通过纳入各种癌变和其他患病状态的数据,旨在提高模型在解析复杂空间关系方面的稳健性和适用性,而这些复杂空间关系对于理解疾病至关重要。

SpatialHuman30M中的空间数据集主要来源于10X Genomics 和 VizGen 发布的数据、CELLXGENE 以及基因表达数据库(GEO),并辅以单细胞门户网站、空间组学数据库(SODB)和艾伦脑图集上的数据集。每张空间载玻片通常包含一个细胞-基因或位点-基因的读数计数矩阵,以及相应的二维空间坐标。还整理了元数据,如载玻片标识、测序协议和空间分辨率。在处理和过滤读数计数矩阵时,采用了严格的、针对不同模式的质量控制措施,以去除读数计数不足的细胞和基因。

为了便于整合多种测序协议的数据,我们应用了一种两级均值归一化技术,以应对数据分布的变化,并降低管家基因的优先级。

总体而言,SpatialHuman30M包含了3000多万个经过精心整理和归一化处理的细胞/位点,涵盖了不同的组织、疾病状态和测序协议。这个数据集的规模和质量对于支持scGPT-spatial的持续预训练至关重要,使其能够捕捉到富含空间背景信息的细胞图谱的复杂性。

关于MoE

scGPT-spatial在架构上的关键创新之处在于引入了基于专家混合(MoE)的解码器,以助力从基因嵌入中预测表达值。scGPT-spatial中的MoE解码器并非像传统方式那样使用单一的前馈网络作为解码器,而是由一个可学习的门控网络和四个作为专家的前馈网络每个负责一个模式)组成,用于捕捉特定模式的特征。这种具有更强建模能力的MoE解码器架构与基因表达预测(GEP)目标相结合,能够基于查询基因在经过Transformer处理后的嵌入来生成这些基因的表达情况。

将经过Transformer处理后的查询基因嵌入以及相应的模式嵌入(指示测序协议)作为输入,门控网络学习对其进行路由,并选择最相关的专家来输出基因表达预测结果。具体而言,按基因划分的输出嵌入 h j ′ ( i ) h_{j}^{\prime(i)} hj(i)由MoE解码器进行处理,从而选择门控分数最高的前2个专家来生成预测值 x ~ j ( i ) \widetilde{x}_{j}^{(i)} x j(i),过程如下:
eq7
其中, g e ( ) g_{e}() ge()是可学习的门控函数, f e ( ) f_{e}() fe()是对应专家 e e e的前向密集网络。为了选择top专家,门控函数 g e ( ) g_{e}() ge()会在所有专家上输出一个概率,用 softmax 函数表示为:
eq8
其中, E E E是专家数, z e ( x ) z_{e}(x) ze(x)是一个线性网络。

专家混合(MoE)解码器架构具有参数扩展的优势,能够增强模型在空间转录组学中对各种细胞特征进行解码的能力。此外,通过选择特定的专家,所学习到的路由策略明确地将每种测序协议与其独特的数据分布联系起来,从而减少了基因嵌入中特定模式的编码,并促进了整合学习。

关于空间感知采样

scGPT-spatial 提出了一种具有空间感知能力的采样和训练策略,其特点是构建局部 “数据块” 以及基于邻域的插补目标。这种新颖的方法能够更好地使模型从预训练语料库中存在的各种微环境中捕捉细胞类型的共定位模式,同时为了保证在不同载玻片之间的通用性,避免了对空间坐标进行显式编码。

具体来说,scGPT-spatial 采用了一种空间感知采样方法,该方法根据空间坐标将附近的细胞和位点分组为局部 “数据块”。这种采样方法旨在支持空间感知训练策略,即利用来自相邻细胞的聚合位点嵌入来预测中心细胞的基因表达谱。在通过位点内基因表达预测来优化单个位点嵌入的同时,位点间的目标进一步增强了对邻域嵌入特征的学习,而邻域嵌入特征可作为一种额外的先验信息,用于指导生成与空间相关的表达。

http://www.xdnf.cn/news/3204.html

相关文章:

  • 【diffusers 进阶之 PEFT 入门(五)】LoRA 权重如何接着训练?踩坑总结和解决方案
  • 在宝塔面板中安装OpenJDK-17的三种方法
  • K8S - 从零构建 Docker 镜像与容器
  • OpenCV 图形API(73)图像与通道拼接函数-----执行 查找表操作图像处理函数LUT()
  • AdaBoost算法的原理及Python实现
  • Vue ui初始化项目并使用iview写一个菜单导航
  • BUUCTF——Fakebook 1
  • UE 材质 条纹循环发光
  • Android compileSdkVersion、minSdkVersion、targetSdkVersion的关系以及和Unity的关系
  • Qwen3本地化部署,准备工作:SGLang
  • K8S - 从单机到集群 - 核心对象与实战解析
  • 同时启动俩个tomcat压缩版
  • C# 在VS2022中开发常用设置
  • Python 爬取微店商品列表接口(item_search)的实战指南
  • 如何在Windows上实现MacOS中的open命令
  • 网工_ICMP协议
  • Linux-04-用户管理命令
  • Java List分页工具
  • 排序算法——选择排序
  • 微格式:为Web内容赋予语义的力量
  • 【Linux 网络】网络工具ifconfig和iproute/iproute2工具详解
  • 端到端观测分析:从前端负载均衡到后端服务
  • 进程、线程、进程间通信Unix Domain Sockets (UDS)
  • 《操作系统真象还原》第十一章——用户进程
  • Spring 框架中的常见注解讲解
  • Qt窗口关闭特效:自底而上逐渐消失
  • google colab设置python环境为python3.7
  • 提高程序灵活性和效率的利器:Natasha动态编译库【.Net】
  • 【学习笔记】Shell编程--Bash变量
  • HBuider中Uniapp去除顶部导航栏-小程序、H5、APP适用