WES(三)——变异检测
WGS最重要的步骤——获得样本准确的变异集合。变异检测内容一般包括SNP、Indel,CNV和SV等。一般做SNP和Indel。
1. Collect Alignment & Insert Size Metrics
这步非必须,可省略。
插入片段大小的分布一般符合正态分布,且只有一个单峰,Insert Size分布图可以展示各个样品的插入片段的长度分布情况。
# -------------- STEP 1: Collect Alignment & Insert Size Metrics ----------------gatk CollectAlignmentSummaryMetrics R=${ref} I=${aligned_reads}/SRR062634_sorted_dedup_bqsr_reads.bam O=${aligned_reads}/alignment_metrics.txt
gatk CollectInsertSizeMetrics INPUT=${aligned_reads}/SRR062634_sorted_dedup_bqsr_reads.bam OUTPUT=${aligned_reads}/insert_size_metrics.txt HISTOGRAM_FILE=${aligned_reads}/insert_size_histogram.pdf#multiqc . #在align reads文件夹中运行
2. 使用GATK提供的HaplotypeCaller工具,该算法既适合于群体的变异检测,也能够依据群体信息更好地识别单个样本的变异位点。
#单样本处理 运行了3个小时?
gatk HaplotypeCaller \
-R ${ref} \
-I ${aligned_reads}/SRR062634_sorted_dedup_bqsr_reads.bam \
-O ${results}/raw_variants.vcf.gz
对于多个样本,我们通常加上-ERC GVCF参数,先生产gVCF的中间文件,再利用CombineGVCFs和GenotypeGVCFs将各个样本数据整合,这样对于多样本、新增样本、重测样本的情况较为省时省力。
# ------------------------ STEP 2: Call Variants -------------------------#多样本处理 参考https://wenlongshen.github.io/2020/05/28/Whole-Genome-Sequencing/
for sample in ${samples};
do gatk HaplotypeCaller \-R ${reference_fa} \-ERC GVCF \-I ${sample}.bqsr.bam \-O ${sample}.hc.g.vcf.gz
done;sample_gvcfs=""
for sample in ${samples}; do sample_gvcfs=${sample_gvcfs}"-V ${sample}.hc.g.vcf.gz " done;gatk CombineGVCFs \-R ${reference_fa} \${sample_gvcfs} \-O multi_samples.hc.g.vcf.gz
gatk GenotypeGVCFs \-R ${reference_fa} \-V multi_samples.hc.g.vcf.gz \-O multi_samples.hc.vcf.gz
参考
全基因组测序(WGS)流程及实践 - 知乎
从零开始完整学习全基因组测序(WGS)数据分析:第4节 构建WGS主流程 | Public Library of Bioinformatics