NextDenovo2.5.2安装与使用-生信工具53
01 NextDenovo 简介
适用于三代数据基因组组装!
NextDenovo 是一个基于字符串图(String Graph)的长读段(如 PacBio CLR, ONT)从头组装工具。它采用类似于 Canu 的“先纠错后组装”(correct-then-assemble)策略(注:对于 PacBio HiFi 数据不进行纠错步骤),但相比 Canu 所需的计算资源和存储更少。 不适用HiFi!
组装完成后的单碱基准确率约为 98%–99.8%。如果需要进一步提升单碱基精度,推荐使用 NextPolish 进行后处理。
性能评估
对 NextDenovo 与其他组装工具进行了对比测试,使用的数据包括:
-
人类和果蝇(Drosophila melanogaster)的 Oxford Nanopore 长读段数据
-
拟南芥(Arabidopsis thaliana)的 PacBio 连续长读段(CLR)
结果表明:
-
NextDenovo 生成的组装更连续,contig 数量更少
-
在组装一致性和单碱基准确性方面表现优秀
02 安装方法
依赖环境
-
Python(支持 Python 2 和 3)
python-pip增加下载速度-linux006-CSDN博客
-
paralleltask
模块(可通过 pip 安装):pip install paralleltask
下载并安装
m1
wget https://github.com/Nextomics/NextDenovo/releases/latest/download/NextDenovo.tgz tar -vxzf NextDenovo.tgz && cd NextDenovom2
git clone git@github.com:Nextomics/NextDenovo.git cd NextDenovo && make
测试运行
使用官方提供的测试数据进行测试:
nextDenovo test_data/run.cfg
03 使用
3.1:准备 input.fofn
文件(列出原始读段文件)
ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn
input.fofn
是一个文本文件,列出所有输入的长读段(支持 fasta/fastq、压缩或非压缩格式)
3.2:创建配置文件 run.cfg
cp doc/run.cfg ./
-
务必设置:
-
read_type
(如:ont、clr、hifi) -
genome_size
(如:130m 表示 130 Mb)
-
-
建议参考文档:
-
doc/FAQ
:常见问题 -
doc/OPTION
:参数说明,优化并行计算性能
-
3.3:运行组装
nextDenovo run.cfg
-
组装序列输出路径:
01_rundir/03.ctg_graph/nd.asm.fasta
-
统计信息文件:
01_rundir/03.ctg_graph/nd.asm.fasta.stat
04 个性化使用参数
4.1 输入(Input)
准备 input.fofn
文件
ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn
input.fofn
文件中每一行是一个长读段文件路径(支持 fasta/fastq,压缩或非压缩)
配置文件(Config File)
配置文件是一个包含键值对(key=value)的文本文件,用于设定运行参数。以下是典型的 run.cfg
文件(原始文件位于 doc/run.cfg
):
[General] job_type = local # 可选项:local, sge, pbs, slurm, lsf 等 job_prefix = nextDenovo # 任务前缀 task = all # 运行阶段:all / correct / assemble rewrite = yes # 是否覆盖已有目录 deltmp = yes # 删除中间文件 parallel_jobs = 20 # 并行任务数 input_type = raw # 输入类型:raw(原始)或 corrected(纠错后) read_type = clr # 读段类型:clr, ont, hifi input_fofn = input.fofn # 输入文件列表 workdir = 01_rundir # 工作目录 [correct_option] read_cutoff = 1k # 过滤短读段(低于此长度) genome_size = 1g # 估算基因组大小(支持 k/m/g 后缀) sort_options = -m 20g -t 15 # 排序参数:内存和线程 minimap2_options_raw = -t 8 # minimap2 原始比对参数 pa_correction = 3 # 并行纠错任务数 correction_options = -p 15 # 纠错参数(线程数) [assemble_option] minimap2_options_cns = -t 8 # minimap2 校正比对参数 nextgraph_options = -a 1 # NextGraph 组装参数
运行命令(Run)
nextDenovo run.cfg
输出文件(Output)
主输出文件:
workdir/03.ctg_graph/nd.asm.fasta
-
fasta 格式组装结果
-
每条 contig 的头信息包括 ID、类型、长度、结点数
-
连续小写字母表示弱连接,单个小写碱基表示低质量
统计文件:
workdir/03.ctg_graph/nd.asm.fasta.stat
-
包含 N10–N90、总长度等基本统计信息
4.2 参数选项概览
全局参数(Global Options)
参数名 | 含义 |
---|---|
job_type | 作业系统类型(local, sge, slurm 等) |
task | 任务类型:correct(纠错)、assemble(组装)、all(全部) |
input_type | 输入类型:raw(原始)或 corrected(已纠错) |
read_type | 读段类型:clr、ont、hifi |
parallel_jobs | 并行任务数 |
workdir | 工作目录 |
input_fofn | 输入文件列表 |
纠错参数(Correction Options)
参数名 | 含义 |
---|---|
read_cutoff | 过滤低于此长度的读段 |
genome_size | 基因组大小估算 |
seed_depth | 期望的种子覆盖度(默认45) |
blocksize | 并行拆分文件的最大尺寸(默认10g) |
pa_correction | 并行纠错任务数(覆盖 parallel_jobs) |
correction_options | -p 线程数 等其他纠错参数 |
组装参数(Assembly Options)
参数名 | 含义 |
---|---|
minimap2_options_cns | 用于纠错读段之间的比对参数 |
nextgraph_options | 用于组装图构建的参数 |
04 引用
Hu J, Wang Z, Sun Z, et al. NextDenovo: an efficient error correction and accurate assembly tool for noisy long reads[J]. Genome Biology, 2024, 25(1): 1-19.