当前位置：首页 > news >正文

2025.06.09【RNA-seq】|逆转录元件（retrotransposon）表达分析全流程详解

news 2025/6/10 11:03:51

文章目录

- 一、背景介绍
- 二、链特异性建库的意义
- 三、分析流程总览
- 四、详细流程与命令
- - 1. 原始数据质控
  - - 1.1 FastQC：原始数据质量评估
    - 1.2 fastp：去接头、过滤低质量reads
  - 2. 比对到基因组
  - - 2.1 构建基因组索引（以STAR为例）
    - 2.2 比对reads到基因组
  - 3. 逆转录元件表达定量
  - - 3.1 获取逆转录元件注释
    - 3.2 featureCounts 计数
  - 4. 下游分析（可选）
- 五、常见问题与注意事项
- 六、参考命令汇总
- 七、结语

一、背景介绍

**逆转录元件（Retrotransposon）**是一类能够通过“复制-粘贴”机制在基因组中移动的转座元件。它们首先将自身DNA转录为RNA，再通过逆转录酶反转录为DNA并插入到基因组新位置。
逆转录元件广泛存在于真核生物基因组中（如人类基因组约40%为转座元件），对基因组进化、基因调控、疾病发生等具有重要意义。

常见类型包括：

LTR逆转录元件（如HERV、Ty1-copia、Ty3-gypsy）
非LTR逆转录元件（如LINE-1、Alu等）

二、链特异性建库的意义

**链特异性建库（Strand-specific/Directional RNA-seq)**能保留原始RNA分子的链信息。
对于逆转录元件这类常与基因、其它转座元件重叠且正负链均可能表达的区域，链特异性数据能显著提升表达定量的准确性，避免正负链混淆。

常见链特异性文库类型有dUTP法、Illumina TruSeq、NEBNext Ultra II Directional等。

三、分析流程总览

原始数据│├── 1. 质控（FastQC/fastp）│├── 2. 比对（STAR/HISAT2，保留链信息）│├── 3. 定量（featureCounts，结合RepeatMasker注释，链特异性计数）│└── 4. 下游分析（差异表达、富集、可视化等）

四、详细流程与命令

1. 原始数据质控

1.1 FastQC：原始数据质量评估

fastqc sample_R1.fastq.gz sample_R2.fastq.gz -o fastqc_results/

检查测序质量、接头污染、GC含量等。

1.2 fastp：去接头、过滤低质量reads

fastp -i sample_R1.fastq.gz -I sample_R2.fastq.gz \-o sample_R1.clean.fastq.gz -O sample_R2.clean.fastq.gz \-h fastp.html -j fastp.json \-q 20 -u 30 -n 5 -l 50

-q 20：最低质量分数
-u 30：允许的低质量碱基比例
-n 5：允许的N碱基数
-l 50：最短保留长度

2. 比对到基因组

2.1 构建基因组索引（以STAR为例）

STAR --runThreadN 8 --runMode genomeGenerate \--genomeDir genome_index \--genomeFastaFiles genome.fa \--sjdbGTFfile annotation.gtf

2.2 比对reads到基因组

STAR --runThreadN 8 \--genomeDir genome_index \--readFilesIn sample_R1.clean.fastq.gz sample_R2.clean.fastq.gz \--readFilesCommand zcat \--outFileNamePrefix sample_ \--outSAMtype BAM SortedByCoordinate \--outSAMstrandField intronMotif

输出为排序好的 BAM 文件：sample_Aligned.sortedByCoord.out.bam
--outSAMstrandField intronMotif 保留链信息，便于后续链特异性计数

3. 逆转录元件表达定量

3.1 获取逆转录元件注释

推荐使用 RepeatMasker 注释文件（可从UCSC Table Browser下载，格式为GTF或BED）。
也可用 TEtranscripts 自带的TE注释。

3.2 featureCounts 计数

featureCounts -T 8 \-a repeatmasker.gtf \-o retrotransposon.counts.txt \-s 2 \-t exon \-g gene_id \sample_Aligned.sortedByCoord.out.bam

-T 8：线程数
-a：注释文件（RepeatMasker GTF）
-o：输出文件
-s 2：反向链特异性（根据你的文库类型调整为1或2）
-t exon：注释文件中用于计数的feature类型（如RepeatMasker GTF一般为exon或transposable_element）
-g gene_id：分组属性（如RepeatMasker GTF中为gene_id或family_id等）

注意：RepeatMasker GTF的第9列属性名需与 -g 参数一致。

4. 下游分析（可选）

差异表达分析：DESeq2、edgeR等R包
可视化：R、Python等

五、常见问题与注意事项

链特异性参数设置
- 不同文库类型链特异性参数不同，务必查明文库类型，featureCounts中 -s 1（正链）、-s 2（反向链），不确定可用RSeQC的infer_experiment.py检测。
注释文件格式
- RepeatMasker注释可用UCSC Table Browser下载，需转换为GTF格式，且第9列属性名需与 -g 参数一致。
reads多重比对
- 逆转录元件重复性高，建议featureCounts加 -M 统计多重比对reads，或用TEtranscripts等专用工具。
下游分析
- 逆转录元件表达量可与基因表达量一同分析，进行差异表达、富集分析等。

六、参考命令汇总

# 1. 质控
fastqc sample_R1.fastq.gz sample_R2.fastq.gz -o fastqc_results/
fastp -i sample_R1.fastq.gz -I sample_R2.fastq.gz -o sample_R1.clean.fastq.gz -O sample_R2.clean.fastq.gz -h fastp.html -j fastp.json# 2. 比对
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir genome_index --genomeFastaFiles genome.fa --sjdbGTFfile annotation.gtf
STAR --runThreadN 8 --genomeDir genome_index --readFilesIn sample_R1.clean.fastq.gz sample_R2.clean.fastq.gz --readFilesCommand zcat --outFileNamePrefix sample_ --outSAMtype BAM SortedByCoordinate --outSAMstrandField intronMotif# 3. 定量
featureCounts -T 8 -a repeatmasker.gtf -o retrotransposon.counts.txt -s 2 -t exon -g gene_id sample_Aligned.sortedByCoord.out.bam