当前位置：首页 > ds >正文

英伟达开源英语自动语音识别模型：nvidia/parakeet-tdt-0.6b-v2

ds 2025/7/2 19:36:55

NVIDIA Parakeet TDT 0.6B V2 模型详解

1. 模型基本信息

模型名称： NVIDIA Parakeet TDT 0.6B V2

模型架构： FastConformer-TDT

参数量： 6 亿

支持语言： 英语

该模型是一款高品质英语转录的自动语音识别(ASR)模型，具备以下特点：

能对音频进行准确的标点符号和大写字母预测
能准确预测单词级别的时间戳
在处理数字和歌词转录方面表现出色

它基于 FastConformer 编码器架构和 TDT 解码器开发，训练时采用全注意力机制，可高效转录长达 24 分钟的音频片段。

2. 关键特性

准确的单词级时间戳预测： 能为转录文本中的每个单词提供精确的时间戳信息，这对于需要精确了解语音内容时间位置的应用，如字幕生成等非常有用。
自动标点和大写： 模型能够自动在转录文本中添加合适的标点符号和大写字母，提高文本的可读性和准确性。
强大的性能： 在处理口语数字和歌词转录方面表现出色，能准确识别这些内容，为用户提供个性化语音服务等应用提供更高质量的转录结果。

3. 使用方法

安装： 通过 pip install -U nemo_toolkit[‘asr’] 安装 NVIDIA NeMo 工具包，该模型可在 NeMo 工具包中使用，可作为预训练检查点用于推理或在其他数据集上进行微调。
推理代码示例：
- 首先导入相关模块：import nemo.collections.asr as nemo_asr
- 然后加载模型：asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name=“nvidia/parakeet-tdt-0.6b”)
- 对于普通转录，使用：output = asr_model.transcribe([‘音频文件路径’])，然后打印 output[0].text 即可得到转录文本。
- 若要获取时间戳信息，可设置 timestamps=True 参数，例如：output = asr_model.transcribe([‘音频文件路径’], timestamps=True)，然后通过 output[0].timestamp[‘word’] 等获取不同级别的时间戳信息。
输入输出：
- 输入类型： 16kHz 的单声道音频信号，支持 .wav 和 .flac 音频格式。
- 输出类型： 文本字符串，包含标点符号和大写字母。

4. 训练与评估

训练数据： 该模型在 Granary 数据集上进行训练，该数据集包含约 12 万小时的英语语音数据，其中 1 万小时来自人类转录的 NeMo ASR Set 3.0，包括 LibriSpeech、Fisher Corpus、National Speech Corpus Part 1 等数据集；另外 11 万小时来自伪标记数据，包括 YTC、YODAS、Librilight 数据集等。所有转录文本均保留标点符号和大写字母。
训练过程： 从在 LibriLight 数据集上预训练的 wav2vec SSL 检查点初始化，使用 128 个 A100 GPU 训练 150,000 步；然后使用 NeMo ASR Set 3.0 中大约 500 小时的高质量人类转录音频数据，在 4 个 A100 GPU 上进行 2,500 步的第二阶段微调。
评估数据： 使用 Huggingface Open ASR Leaderboard 数据集对模型性能进行评估，这些数据集通常用于基准测试英语 ASR 系统。
评估指标： 使用词错误率（WER）衡量 ASR 模型的性能。在不同信噪比（SNR）条件下以及不同音频格式下对模型性能进行了评估，结果表明该模型在多种情况下均表现出良好的性能。

5. 伦理考量

NVIDIA 认为可信 AI 是共同的责任，并建立了相关政策和实践以支持各种 AI 应用的开发。在模型设计和测试过程中，未特别考虑来自不利影响群体的受保护类别，也未采取措施来减轻不受欢迎的偏见。该模型主要面向开发对话式应用的开发者、研究人员、学者和行业，输出的文本是通过对语音输入进行编码并经过 conformer 基础模型处理后生成的。由于输入音频的语言和特性（如领域、用例、口音、噪声、语音类型、语音上下文等）不同，转录结果可能不 100% 准确。如果某个词未包含在语言模型的词汇表中，则模型可能无法识别该词。该模型已通过 NVIDIA 的质量标准验证，其使用受 CC-BY-4.0 许可证的约束，未使用可生成或逆向工程的个人数据来创建该模型，所有训练数据集都有出处，数据标记符合隐私法规。

6. 软件集成与硬件要求

软件集成： NVIDIA Blackwell、NVIDIA Hopper、NVIDIA Volta。
操作系统： Linux。
硬件要求： 至少需要 2GB RAM 才能加载模型，RAM 越大，支持的音频输入越大。该模型专为在 NVIDIA GPU 加速系统上运行而设计，借助 NVIDIA 的硬件（如 GPU 内核）和软件框架（如 CUDA 库），与仅使用 CPU 的解决方案相比，可实现更快的训练和推理时间。