当前位置：首页 > backend >正文

NextDenovo2.5.2安装与使用-生信工具53

backend 2025/9/1 16:31:28

01 NextDenovo 简介

适用于三代数据基因组组装！

NextDenovo 是一个基于字符串图（String Graph）的长读段（如 PacBio CLR， ONT）从头组装工具。它采用类似于 Canu 的“先纠错后组装”（correct-then-assemble）策略（注：对于 PacBio HiFi 数据不进行纠错步骤），但相比 Canu 所需的计算资源和存储更少。 不适用HiFi！

组装完成后的单碱基准确率约为 98%–99.8%。如果需要进一步提升单碱基精度，推荐使用 NextPolish 进行后处理。

性能评估

对 NextDenovo 与其他组装工具进行了对比测试，使用的数据包括：

人类和果蝇（Drosophila melanogaster）的 Oxford Nanopore 长读段数据
拟南芥（Arabidopsis thaliana）的 PacBio 连续长读段（CLR）

结果表明：

NextDenovo 生成的组装更连续，contig 数量更少
在组装一致性和单碱基准确性方面表现优秀

02 安装方法

依赖环境

Python（支持 Python 2 和 3）

python-pip增加下载速度-linux006-CSDN博客

paralleltask 模块（可通过 pip 安装）：
```
pip install paralleltask
```

下载并安装

m1
wget https://github.com/Nextomics/NextDenovo/releases/latest/download/NextDenovo.tgz tar -vxzf NextDenovo.tgz && cd NextDenovom2
git clone git@github.com:Nextomics/NextDenovo.git cd NextDenovo && make

测试运行

使用官方提供的测试数据进行测试：

nextDenovo test_data/run.cfg

03 使用

3.1：准备 `input.fofn` 文件（列出原始读段文件）

ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn

input.fofn 是一个文本文件，列出所有输入的长读段（支持 fasta/fastq、压缩或非压缩格式）

3.2：创建配置文件 `run.cfg`

cp doc/run.cfg ./

务必设置：
- read_type（如：ont、clr、hifi）
- genome_size（如：130m 表示 130 Mb）
建议参考文档：
- doc/FAQ：常见问题
- doc/OPTION：参数说明，优化并行计算性能

3.3：运行组装

nextDenovo run.cfg

组装序列输出路径：

01_rundir/03.ctg_graph/nd.asm.fasta
统计信息文件：

01_rundir/03.ctg_graph/nd.asm.fasta.stat

04 个性化使用参数

4.1 输入（Input）

准备 input.fofn 文件

ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn

input.fofn 文件中每一行是一个长读段文件路径（支持 fasta/fastq，压缩或非压缩）

配置文件（Config File）

配置文件是一个包含键值对（key=value）的文本文件，用于设定运行参数。以下是典型的 run.cfg 文件（原始文件位于 doc/run.cfg）：

[General] job_type = local # 可选项：local, sge, pbs, slurm, lsf 等 job_prefix = nextDenovo # 任务前缀 task = all # 运行阶段：all / correct / assemble rewrite = yes # 是否覆盖已有目录 deltmp = yes # 删除中间文件 parallel_jobs = 20 # 并行任务数 input_type = raw # 输入类型：raw（原始）或 corrected（纠错后） read_type = clr # 读段类型：clr, ont, hifi input_fofn = input.fofn # 输入文件列表 workdir = 01_rundir # 工作目录 [correct_option] read_cutoff = 1k # 过滤短读段（低于此长度） genome_size = 1g # 估算基因组大小（支持 k/m/g 后缀） sort_options = -m 20g -t 15 # 排序参数：内存和线程 minimap2_options_raw = -t 8 # minimap2 原始比对参数 pa_correction = 3 # 并行纠错任务数 correction_options = -p 15 # 纠错参数（线程数） [assemble_option] minimap2_options_cns = -t 8 # minimap2 校正比对参数 nextgraph_options = -a 1 # NextGraph 组装参数

运行命令（Run）

nextDenovo run.cfg

输出文件（Output）

主输出文件：

workdir/03.ctg_graph/nd.asm.fasta

fasta 格式组装结果
每条 contig 的头信息包括 ID、类型、长度、结点数
连续小写字母表示弱连接，单个小写碱基表示低质量

统计文件：

workdir/03.ctg_graph/nd.asm.fasta.stat

包含 N10–N90、总长度等基本统计信息

4.2 参数选项概览

全局参数（Global Options）

参数名	含义
job_type	作业系统类型（local, sge, slurm 等）
task	任务类型：correct（纠错）、assemble（组装）、all（全部）
input_type	输入类型：raw（原始）或 corrected（已纠错）
read_type	读段类型：clr、ont、hifi
parallel_jobs	并行任务数
workdir	工作目录
input_fofn	输入文件列表

纠错参数（Correction Options）

参数名	含义
read_cutoff	过滤低于此长度的读段
genome_size	基因组大小估算
seed_depth	期望的种子覆盖度（默认45）
blocksize	并行拆分文件的最大尺寸（默认10g）
pa_correction	并行纠错任务数（覆盖 parallel_jobs）
correction_options	`-p 线程数` 等其他纠错参数

组装参数（Assembly Options）

参数名	含义
minimap2_options_cns	用于纠错读段之间的比对参数
nextgraph_options	用于组装图构建的参数

04 引用

Hu J, Wang Z, Sun Z, et al. NextDenovo: an efficient error correction and accurate assembly tool for noisy long reads[J]. Genome Biology, 2024, 25(1): 1-19.

查看全文

http://www.xdnf.cn/news/5135.html