Bismark甲基化提取器
描述
以下是控制Bismark甲基化提取器所有选项的简要说明。该脚本读取由Bismark亚硫酸氢盐映射器生成的亚硫酸氢盐读取比对结果文件(BAM/CRAM/SAM格式),并提取单个胞嘧啶的甲基化信息。此信息位于甲基化调用字段中,该字段可包含以下字符:
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~ X 表示CHG上下文的甲基化C ~~~
~~~ x 表示CHG上下文的非甲基化C ~~~
~~~ H 表示CHH上下文的甲基化C ~~~
~~~ h 表示CHH上下文的非甲基化C ~~~
~~~ Z 表示CpG上下文的甲基化C ~~~
~~~ z 表示CpG上下文的非甲基化C ~~~
~~~ U 表示未知上下文(CN或CHN)的甲基化C ~~~
~~~ u 表示未知上下文(CN或CHN)的非甲基化C ~~~
~~~ . 表示任何不涉及胞嘧啶的碱基 ~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
甲基化提取器会输出CpG、CHG和CHH上下文中胞嘧啶的结果文件(这种区分实际上在Bismark本身中就已完成)。由于分析的每个C的甲基化信息可能会生成轻松达到数千万甚至数亿行的文件,文件大小可能会变得非常大,处理起来也更加困难。C甲基化信息还会将胞嘧啶甲基化调用拆分为给定亚硫酸氢盐读取比对的四种可能链之一:
- OT:原始顶链
- CTOT:与原始顶链互补
- OB:原始底链
- CTOB:与原始底链互补
因此,默认情况下,每个输入文件会生成12个单独的输出文件(除非指定了--comprehensive
,见下文)。输出文件可以导入到基因组查看器(如SeqMonk)中,如果需要,可以重新组合成一个数据组(实际上,除非亚硫酸氢盐读取是在保留方向性的情况下生成的,否则按链特异性方式查看数据没有任何意义)。可以选择跳过链特异性输出文件,在这种情况下,只会生成三个用于CpG、CHG或CHH上下文的输出文件。对于链特异性和综合输出,也可以选择将两个非CpG上下文(CHG和CHH)合并为一个单一的非CpG上下文。
输出文件采用以下格式(制表符分隔):
<序列ID> <链> <染色体> <位置> <甲基化调用>
使用方法
bismark_methylation_extractor [选项] <文件名>
参数
<文件名>
:以空格分隔的Bismark结果文件列表,格式为SAM,从中提取读取中每个胞嘧啶的甲基化信息。
选项
-
-s/–single-end:输入文件是由单端读取数据生成的Bismark结果文件。如果既未设置
-s
也未设置-p
,则将自动确定实验类型。 -
-p/–paired-end