当前位置: 首页 > backend >正文

WES(三)——变异检测

WGS最重要的步骤——获得样本准确的变异集合。变异检测内容一般包括SNP、Indel,CNV和SV等。一般做SNP和Indel。

1. Collect Alignment & Insert Size Metrics

这步非必须,可省略。

插入片段大小的分布一般符合正态分布,且只有一个单峰,Insert Size分布图可以展示各个样品的插入片段的长度分布情况。

# -------------- STEP 1: Collect Alignment & Insert Size Metrics ----------------gatk CollectAlignmentSummaryMetrics R=${ref} I=${aligned_reads}/SRR062634_sorted_dedup_bqsr_reads.bam O=${aligned_reads}/alignment_metrics.txt
gatk CollectInsertSizeMetrics INPUT=${aligned_reads}/SRR062634_sorted_dedup_bqsr_reads.bam OUTPUT=${aligned_reads}/insert_size_metrics.txt HISTOGRAM_FILE=${aligned_reads}/insert_size_histogram.pdf#multiqc .  #在align reads文件夹中运行

2. 使用GATK提供的HaplotypeCaller工具,该算法既适合于群体的变异检测,也能够依据群体信息更好地识别单个样本的变异位点。

#单样本处理   运行了3个小时?
gatk HaplotypeCaller \ 
-R ${ref} \
-I ${aligned_reads}/SRR062634_sorted_dedup_bqsr_reads.bam \
-O ${results}/raw_variants.vcf.gz

对于多个样本,我们通常加上-ERC GVCF参数,先生产gVCF的中间文件,再利用CombineGVCFs和GenotypeGVCFs将各个样本数据整合,这样对于多样本、新增样本、重测样本的情况较为省时省力。

# ------------------------ STEP 2: Call Variants -------------------------#多样本处理  参考https://wenlongshen.github.io/2020/05/28/Whole-Genome-Sequencing/
for sample in ${samples};
do gatk HaplotypeCaller \-R ${reference_fa} \-ERC GVCF \-I ${sample}.bqsr.bam \-O ${sample}.hc.g.vcf.gz
done;sample_gvcfs=""
for sample in ${samples}; do sample_gvcfs=${sample_gvcfs}"-V ${sample}.hc.g.vcf.gz " done;gatk CombineGVCFs \-R ${reference_fa} \${sample_gvcfs} \-O multi_samples.hc.g.vcf.gz 
gatk GenotypeGVCFs \-R ${reference_fa} \-V multi_samples.hc.g.vcf.gz \-O multi_samples.hc.vcf.gz

参考

全基因组测序(WGS)流程及实践 - 知乎

从零开始完整学习全基因组测序(WGS)数据分析:第4节 构建WGS主流程 | Public Library of Bioinformatics

http://www.xdnf.cn/news/9970.html

相关文章:

  • Pix4d航测软件正射影像生产流程(一)项目创建及快速空三
  • Baklib企业知识激活解决方案
  • MySQL 数据库中的主键、超键、候选键、外键是什么?
  • vue3 driverjs
  • 车载摄像头选型相关
  • 初识JAVA:Java异常种类
  • Blaster - Multiplayer P117-PXXX: 匹配状态
  • 项目使用富文本编辑器发送邮件,邮箱无法预览
  • Parasoft C++Test软件单元测试_常见问题及处理
  • MySQL 8.0中的mysql.ibd文件
  • 深度学习目标检测实战——YOLOv8从入门到部署
  • linux 1.0.3
  • 【android bluetooth 协议分析 02】【bluetooth hal 层详解 6】【bt_vendor_opcode_t 介绍】
  • oracle 导入导出 dmp 数据文件实战
  • 树型表查询方法 —— SQL递归
  • RockyLinux9安装Docker
  • 进阶智能体实战八、需求分析助手(基于qwen多模态大模型对图文需求文档分析)(帮你生成 模块划分+页面+表设计、状态机、工作流、ER模型)
  • 摄像头模块的镜头类型
  • Git 全平台安装指南:从 Linux 到 Windows 的详细教程
  • PCIe走线注意事项
  • 【动态规划:斐波那契数列模型】第 N 个泰波那契数
  • 英语学习5.29
  • Java开发经验——阿里巴巴编码规范实践解析5
  • 数字人系统源码搭建步骤
  • NHANES指标推荐:UAR
  • LINUX中TOMCAT安装和Nginx源码安装
  • 【深度学习】12. VIT与GPT 模型与语言生成:从 GPT-1 到 GPT4
  • docker-compose部署SpringBoot项目的两种方式(构建镜像和挂载文件)
  • Python打卡第39天
  • Futaba乐迪小飞象Frsky7通多协议接收机KA6说明书