当前位置: 首页 > news >正文

sc-atac的基础知识(0)

sc-atac的基础知识

**fragment**是ATAC-seq实验中的一个重要概念,它指的是通过Tn5转座酶对DNA分子进行酶切,然后经由双端测序得到的序列。
在这里插入图片描述
根据Tn5插入导致的偏移从read比对得到的位置推断出fragment的起始和结束位置。根据之前的报道,Tn5转座酶以同源二聚体的形式结合到DNA上,在两个Tn5分子间隔着9-bp的DNA序列。根据这个情况,每个Tn5同源二聚体的结合事件会产生2个Insertions,中间隔着9bp。因此,真实的"开放"位置的中心在Tn5二聚体的正中间,而不是Tn5的插入位置。为了尽可能的还原真实情况,我们对Tn5的Insertions进行了校正,即正链的插入结果往右移动4bp(+4 bp), 负链的插入结果往左偏移5bp(-5 bp)。这个和最早提出的ATAC-seq里的描述是一致的。因此,在ArchR中,"fragment"指的是一个table或genomic ranges对象, 记录在染色体上,经过偏移校正后的单碱基起始位置,以及经过偏移校正后单碱基结束位置,每个fragment都会对应唯一的细胞条形码。类似的,"Insertions"这得是偏移校正后的单碱基位置,它位于开放位置的正中心。(https://www.jianshu.com/p/f7975da8e1e8)

  1. Tn5 转座酶(绿色剪刀图标)只能切割 开放染色质(Open chromatin,线条松散)。
  2. 在封闭染色质(Closed chromatin,线条紧密)处,Tn5 无法进入,因此不切割。
  3. Tn5 在开放区域切割后,插入测序接头(adapters,灰色小条),形成 可测序的 DNA 片段
  4. 这些片段经过 PCR 扩增 & 测序,最终得到 开放染色质信号峰
    “只有染色质松开的区域才会被 Tn5 切割并变成可测序的 ATAC 片段。”

Tn5 转座酶是同源二聚体

什么是同源二聚体,组蛋白是八聚体吗?两者什么区别

一句话区分:

  • 同源二聚体 = 2 个相同蛋白抱在一起;
  • 组蛋白八聚体 = 8 个不同组蛋白(2×H2A、2×H2B、2×H3、2×H4)按固定比例拼成核小体核心。

1 同源二聚体(homo-dimer)

  • 定义:由 两条完全相同的肽链/蛋白 非共价结合而成的功能单位。
  • ATAC-seq 场景:Tn5 转座酶只有 两条一模一样的 Tn5 分子 同时结合 DNA,才能切割并插入接头

2 组蛋白八聚体(histone octamer)

  • 组成
    (H2A-H2B) × 2  
    (H3-H4) × 2  
    共 8 条肽链
    
  • 功能:绕成核小体核心,把 DNA 缠成“线轴”。

3 核心差异

维度同源二聚体组蛋白八聚体
链数2 条相同蛋白8 条不同蛋白
蛋白种类1 种4 种(H2A、H2B、H3、H4)
生物学角色酶活性单位(如 Tn5)染色质结构骨架
是否完全相同✅ 是❌ 否

根据之前的报道,Tn5转座酶以同源二聚体的形式结合到DNA上,在两个Tn5分子间隔着9-bp的DNA序列。什么意思
意思是:
Tn5 转座酶只有两条完全相同的酶链(同源二聚体)同时抓住 DNA,它们之间被 9 个碱基对(9 bp)的 DNA 片段隔开

  • 正链酶切在 +4 bp 处
  • 负链酶切在 -5 bp 处
    校正后,这两个切点中间正好留下 9 bp 的“间隙”,真正的开放染色质中心就在这段间隙的正中间。

根据这个情况,每个Tn5同源二聚体的结合事件会产生2个Insertions,中间隔着9bp。什么是Insertions
在 ATAC-seq 里,Insertion 指的是 Tn5 转座酶在 DNA 上实际切割并把测序接头“插入”进去的那一个单碱基点

  • 一个 Tn5 同源二聚体结合事件会 同时切两下,因此 产生 2 个这样的插入点(两条链各一个)
  • 这两个插入点之间正好隔着 9 bp 的 DNA 片段。

Insertions与Fragment的区别

  • Insertions单个碱基点(Tn5 二聚体中心)
    例如 chr1:1000(正链 +4 校正后)。

  • Fragment一条线段(起点—终点)
    例如 chr1:1000–1001(起点 1000,终点 1001),长度 1 bp,正好以 Insertion 点为中心

因此,Insertion 位于 Fragment 的正中间,两者校正后的坐标只差一个“线段宽度”,方向相反的两端各 1 bp。


为什么使用ArchR

在这里插入图片描述

  • 行标题:表示不同的功能模块,如数据导入(Data import)、双细胞去除(Doublet Removal)、基因得分(Gene Scores)、聚类(Clustering)、标准ATAC-seq分析(Standard ATAC-seq Analyses)、数据可视化(Data Visualization)和高级ATAC-seq分析(Advanced ATAC-seq Analyses)等。

ArchR通过优化数据结构降低了内存消耗,使用并行提高了运行速度,因此保证其性能优于其他同类型工具


什么是Arrow文件/ArchRProject

proj <- ArchRProject(ArrowFiles = ArrowFiles,genomeAnnotation = genomeAnnotation,geneAnnotation = geneAnnotation,copyArrows = TRUE
)
  1. Arrow 文件的作用
  • Arrow 文件:是 ArchR 项目中用于存储每个独立样本所有相关信息的文件格式。这些信息包括元数据(如样本名称、实验条件等)、开放的染色质片段(fragments)以及数据矩阵等。
  • 独立样本:每个 Arrow 文件对应一个独立样本,这个样本最好是详尽的分析单元,例如在特定实验条件下的单个重复实验。
  1. Arrow 文件的内容
  • 文件内容:Arrow 文件记录了每个样本的所有相关信息,这些信息对于后续的分析至关重要。
  • 文件路径:Arrow 文件实际上是存储在磁盘上的 HDF5 文件,而不是内存中的 R 对象。
    ·Arrow 文件:存储在磁盘上的文件,使用 HDF5 格式,可以存储大量数据,并且支持快速读取和写入。
    ·R 对象:存储在内存中的数据结构,用于数据处理和分析,但不适合存储大量数据,因为内存容量有限。
  1. ArchR 处理 Arrow 文件的方式
  • 编辑和更新:在创建 Arrow 文件以及进行一些附加分析时,ArchR 会编辑和更新相应的 Arrow 文件,添加额外的信息层。
  • 高效访问:通过使用 ArchRProject 对象,ArchR 可以将多个 Arrow 文件关联到一个分析框架中,从而确保在 R 中能高效访问这些文件。
  1. ArchRProject 对象的作用
  • 内存占用:ArchRProject 对象本身占用的内存不多,因为它主要负责关联磁盘上的 Arrow 文件,而不是存储文件内容本身。
  • 分析框架:ArchRProject 对象将多个 Arrow 文件关联到一个分析框架中,使得在 R 中可以高效地访问和处理这些文件。
  1. 总结
  • Arrow 文件:存储每个样本所有相关信息的 HDF5 文件,存储在磁盘上。
  • ArchRProject 对象:用于关联多个 Arrow 文件,使其在 R 中高效访问,占用内存少。
  • 处理流程:在创建和分析过程中,ArchR 会更新 Arrow 文件,添加额外信息层,以支持复杂的数据分析。

通过这种方式,ArchR 能够高效地处理和分析大量的单细胞 ATAC-seq 数据,同时保持对内存的低占用。

这张图展示了 ArchR 项目中== Arrow 文件==和 ArchRProject 对象的结构和内容,以及它们在存储和内存中的不同格式。

左侧:Arrow 文件(存储在磁盘上)

  • 格式:HDF5 格式,文件体积较大。
  • 内容
    • Metadata(元数据)
      • 样本中心元数据(Sample-centric Metadata)
      • 细胞中心元数据(Cell-centric Metadata)
      • 基因组注释(Genome Annotation,DNA)
    • Sequence-derived data(序列衍生数据)
      • 可访问区域(Accessible Regions,Fragments)
      • 500 bp 的片段(Tiles)
      • 基因得分矩阵(Gene Score Matrix)
      • 峰值(Peaks)
      • 峰值计数矩阵(Peak Count Matrix)
      • 转录因子偏差矩阵(TF Deviation Matrix)
      • 细胞类型矩阵(Cell Type Matrix)
右侧:ArchRProject 对象(加载到内存中)
  • 格式:RDS 格式,文件体积较小。
  • 内容
    • Metadata(元数据)
      • 样本中心元数据(Sample-centric Metadata)
      • 细胞中心元数据(Cell-centric Metadata)
      • 基因组注释(Genome Annotation,DNA 和转录本)
    • High-level Project Data(高级项目数据)
      • 降维/嵌入(Dim. Reduction / Embeddings,如 LSI、t-SNE、UMAP)
      • 峰值集合(Peak Set,包括染色体位置、起始、终止位置)
      • 峰值注释(Peak Annotation,包括 Motifs、SNPs、Features)

总结

  • Arrow 文件存储了单细胞 ATAC-seq 数据的原始信息,包括元数据和序列衍生数据,文件体积较大,存储在磁盘上。
  • ArchRProject 对象是一个内存中的对象,包含了 Arrow 文件的索引和一些高级分析数据,文件体积较小,便于在内存中快速访问和处理。
  • 通过使用 ArchRProject 对象,可以高效地访问和管理磁盘上的 Arrow 文件,同时利用内存中的对象进行快速分析。

有一些操作会直接修改Arrow文件,而一些操作会先作用于ArchRproject,接着反过来更新每个相关Arrow文件。因为Arrow文件是以非常大的HDF5格式存放,所以ArchR的get-er函数通过和ArchRProject进行交互获取数据,而add-er函数既能直接在Arrow文件中添加数据,也能直接在ArchRpoject里添加数据,或者通过ArchRpoject向Arrow文件添加数据。

http://www.xdnf.cn/news/1232947.html

相关文章:

  • 兴达餐饮 酒店 进销存管理系统软件
  • SPI通信中CS片选的两种实现方案:硬件片选与软件片选
  • 跨语言AI服务指标收集实战
  • Java试题-选择题(6)
  • SmartCLIP:具有识别保证的模块化视觉-语言对齐
  • 烽火HG680-KD_海思MV320处理器-安卓9-原厂系统升级包-针对解决烧录不进系统的问题
  • i Battery Box V3.7 客户端电池检测仪
  • 【学习笔记】MySQL技术内幕InnoDB存储引擎——第8章 备份与恢复
  • MC0364魔法链路
  • 零基础 “入坑” Java--- 十六、字符串String 异常
  • [硬件电路-121]:模拟电路 - 信号处理电路 - 模拟电路中常见的难题
  • ubuntu22.04离线一键安装gpu版docker
  • [Linux入门] Ubuntu 系统中 iptables 的配置与使用
  • 【Django】-4- 数据库存储和管理
  • 【Python修仙编程】(二) Python3灵源初探(11)
  • RAWINPUT避坑指南(涉及GetRawInputData/GetRawInputBuffer)
  • 【智能体cooragent】创建 workflow 时 候选 Agent 和 Tool 获取来源详细分析
  • 深入 Go 底层原理(六):垃圾回收(GC)
  • Kafka——关于Kafka动态配置
  • 洛谷 P3870 [TJOI2009] 开关-普及+/提高
  • 【学习笔记】MySQL技术内幕InnoDB存储引擎——第7章 事务
  • 【Java】在一个前台界面中动态展示多个数据表的字段及数据
  • InfluxDB 与 Node.js 框架:Express 集成方案(二)
  • 中州养老项目:Mybatis自动填充拦截器
  • 大模型Agent记忆的主流技术与优缺点解析
  • 网页操作自动化解决方案:如何用Browser-Use+CPolar提升企业运营效率
  • CYUSB3014-BZXC-USB3.0接口芯片-富利威
  • 解锁智能油脂润滑系统:加速度与温振传感器选型协同攻略
  • Javascript面试题及详细答案150道之(016-030)
  • 前端与后端部署大冒险:Java、Go、C++三剑客