英伟达开源英语自动语音识别模型:nvidia/parakeet-tdt-0.6b-v2
NVIDIA Parakeet TDT 0.6B V2 模型详解
1. 模型基本信息
模型名称: NVIDIA Parakeet TDT 0.6B V2
模型架构: FastConformer-TDT
参数量: 6 亿
支持语言: 英语
该模型是一款高品质英语转录的自动语音识别(ASR)模型,具备以下特点:
-
能对音频进行准确的标点符号和大写字母预测
-
能准确预测单词级别的时间戳
-
在处理数字和歌词转录方面表现出色
它基于 FastConformer 编码器架构和 TDT 解码器开发,训练时采用全注意力机制,可高效转录长达 24 分钟的音频片段。
2. 关键特性
-
准确的单词级时间戳预测: 能为转录文本中的每个单词提供精确的时间戳信息,这对于需要精确了解语音内容时间位置的应用,如字幕生成等非常有用。
-
自动标点和大写: 模型能够自动在转录文本中添加合适的标点符号和大写字母,提高文本的可读性和准确性。
-
强大的性能: 在处理口语数字和歌词转录方面表现出色,能准确识别这些内容,为用户提供个性化语音服务等应用提供更高质量的转录结果。
3. 使用方法
-
安装: 通过 pip install -U nemo_toolkit[‘asr’] 安装 NVIDIA NeMo 工具包,该模型可在 NeMo 工具包中使用,可作为预训练检查点用于推理或在其他数据集上进行微调。
-
推理代码示例:
-
首先导入相关模块:import nemo.collections.asr as nemo_asr
-
然后加载模型:asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name=“nvidia/parakeet-tdt-0.6b”)
-
对于普通转录,使用:output = asr_model.transcribe([‘音频文件路径’]),然后打印 output[0].text 即可得到转录文本。
-
若要获取时间戳信息,可设置 timestamps=True 参数,例如:output = asr_model.transcribe([‘音频文件路径’], timestamps=True),然后通过 output[0].timestamp[‘word’] 等获取不同级别的时间戳信息。
-
-
输入输出:
-
输入类型: 16kHz 的单声道音频信号,支持 .wav 和 .flac 音频格式。
-
输出类型: 文本字符串,包含标点符号和大写字母。
-
4. 训练与评估
-
训练数据: 该模型在 Granary 数据集上进行训练,该数据集包含约 12 万小时的英语语音数据,其中 1 万小时来自人类转录的 NeMo ASR Set 3.0,包括 LibriSpeech、Fisher Corpus、National Speech Corpus Part 1 等数据集;另外 11 万小时来自伪标记数据,包括 YTC、YODAS、Librilight 数据集等。所有转录文本均保留标点符号和大写字母。
-
训练过程: 从在 LibriLight 数据集上预训练的 wav2vec SSL 检查点初始化,使用 128 个 A100 GPU 训练 150,000 步;然后使用 NeMo ASR Set 3.0 中大约 500 小时的高质量人类转录音频数据,在 4 个 A100 GPU 上进行 2,500 步的第二阶段微调。
-
评估数据: 使用 Huggingface Open ASR Leaderboard 数据集对模型性能进行评估,这些数据集通常用于基准测试英语 ASR 系统。
-
评估指标: 使用词错误率(WER)衡量 ASR 模型的性能。在不同信噪比(SNR)条件下以及不同音频格式下对模型性能进行了评估,结果表明该模型在多种情况下均表现出良好的性能。
5. 伦理考量
NVIDIA 认为可信 AI 是共同的责任,并建立了相关政策和实践以支持各种 AI 应用的开发。在模型设计和测试过程中,未特别考虑来自不利影响群体的受保护类别,也未采取措施来减轻不受欢迎的偏见。该模型主要面向开发对话式应用的开发者、研究人员、学者和行业,输出的文本是通过对语音输入进行编码并经过 conformer 基础模型处理后生成的。由于输入音频的语言和特性(如领域、用例、口音、噪声、语音类型、语音上下文等)不同,转录结果可能不 100% 准确。如果某个词未包含在语言模型的词汇表中,则模型可能无法识别该词。该模型已通过 NVIDIA 的质量标准验证,其使用受 CC-BY-4.0 许可证的约束,未使用可生成或逆向工程的个人数据来创建该模型,所有训练数据集都有出处,数据标记符合隐私法规。
6. 软件集成与硬件要求
-
软件集成: NVIDIA Blackwell、NVIDIA Hopper、NVIDIA Volta。
-
操作系统: Linux。
-
硬件要求: 至少需要 2GB RAM 才能加载模型,RAM 越大,支持的音频输入越大。该模型专为在 NVIDIA GPU 加速系统上运行而设计,借助 NVIDIA 的硬件(如 GPU 内核)和软件框架(如 CUDA 库),与仅使用 CPU 的解决方案相比,可实现更快的训练和推理时间。