Bismark
描述
以下是用于控制Bismark亚硫酸氢盐映射器和甲基化调用器的命令行选项及参数的简要说明。Bismark接受FastA或FastQ文件,并将读取序列与指定的亚硫酸氢盐基因组进行比对。序列读取会被转换为亚硫酸氢盐转换的正向链版本(C→T转换)或亚硫酸氢盐处理的反向链版本(正向链的G→A转换)。这些读取序列随后会分别与参考基因组的亚硫酸氢盐处理正向链索引(C→T转换)和亚硫酸氢盐处理反向链索引(正向链的G→A转换,通过此操作可使比对结果产生相同位置)进行比对。这4个Bowtie 2或HISAT2实例将并行运行。随后,序列文件会被再次逐序列读取,以从基因组中提取原始序列,并确定是否存在受保护的C碱基。Bismark的默认输出格式为BAM/SAM格式,下文将详细说明。
用法
bismark [选项] <基因组文件夹> {-1 <配对文件1> -2 <配对文件2> | <单端文件>}
参数
-
<基因组文件夹>
包含未修饰参考基因组的文件夹路径,以及由Bismark_Genome_Preparation
脚本创建的子文件夹(/Bisulfite_Genome/CT_conversion/
和/Bisulfite_Genome/GA_conversion/
)。Bismark要求该文件夹中包含一个或多个FastA文件(文件扩展名:.fa
、.fa.gz
、.fasta
或.fasta.gz
)。路径可以是相对路径或绝对路径,也可以通过--genome_folder /path/to/genome/folder/
设置。 -
-1
包含#1配对文件的逗号分隔列表(文件名通常包含“_1”),例如flyA_1.fq,flyB_1.fq
。此选项指定的序列必须与<mates2>
中指定的文件逐文件、逐读取对应。读取序列可以是不同长度的混合。Bismark将为每对配对输入文件生成一个映射结果和一个报告文件。 -
-2
包含#2配对文件的逗号分隔列表(文件名通常包含“_2”),例如flyA_2.fq,flyB_2.fq
。此选项指定的序列必须与<mates1>
中指定的文件逐文件、逐读取对应。读取序列可以是不同长度的混合。 -
包含待比对读取序列的逗号或空格分隔文件列表(例如lane1.fq,lane2.fq lane3.fq
)。读取序列可以是不同长度的混合。Bismark将为每个输入文件生成一个映射结果和一个报告文件。请注意,必须结合--basename
选项提供文件列表,否则输出文件会不断覆盖!
选项
输入选项
-
–se/–single_end <列表>
显式设置单端映射模式,并将文件名列表作为<列表>
提供。文件名可以用逗号(,
)或冒号(:
)分隔。 -
-q/–fastq
指定输入查询文件(由<mate1>
、<mate2>
或<singles>
指定)为FASTQ文件(通常扩展名为.fq
或.fastq
),这是默认设置。另请参见--solexa-quals
。 -
-f/–fasta
指定输入查询文件(由<mate1>
、<mate2>
或<singles>
指定)为FASTA文件(通常扩展名为.fa
、.mfa
、.fna
等)。所有质量值假定为Phred量表中的40。FASTA文件要求读取名称和序列在同一行(不跨越多行)。 -
-s/–skip
跳过(即不对齐)输入中的前<int>
条读取序列或配对读取。 -
-u/–upto
仅对齐输入中的前<int>
条读取序列或配对读取。默认:无限制。 -
–phred33-quals
FASTQ质量值为ASCII字符,等于Phred质量值加33。默认:开启。 -
–phred64-quals
FASTQ质量值为ASCII字符,等于Phred质量值加64。默认:关闭。 -
–path_to_bowtie2
系统中Bowtie 2安装文件夹的完整路径(非bowtie2可执行文件本身)。若未指定,假设Bowtie 2在PATH中。 -
–path_to_hisat2<