当前位置: 首页 > backend >正文

英伟达语音识别模型论文速读:Token-and-Duration Transducer(TDT)架构

《Efficient Sequence Transduction by Jointly Predicting Tokens and Durations》论文解析

一、引言

本文提出了一种名为 Token-and-Duration Transducer(TDT)的新型架构,用于序列到序列任务。TDT 在传统的 RNN-Transducer 架构基础上进行了扩展,通过联合预测 token 及其持续时间(即发出的 token 所覆盖的输入帧数)来提高模型的效率和准确性。具体来说,TDT 使用一个联合网络生成两个独立归一化的分布,分别对应 token 和持续时间。在推理过程中,TDT 模型能够根据预测的持续时间跳过输入帧,从而显著快于传统的逐帧处理的 Transducer 模型。

二、背景知识

论文首先回顾了传统的 Transducer 模型,包括其组成部分(编码器、解码器和联合网络)以及训练过程中使用的前向-后向算法。Transducer 模型通过最大化音频和对应文本序列的对数概率来进行训练,这需要考虑所有可能的空白符号插入方式。传统的前向变量和后向变量的递归计算方法被详细阐述,为后续 TDT 模型的介绍奠定了基础。

三、研究方法

(一)TDT 架构

TDT 与传统 Transducer 的主要区别在于其能够预测当前发出 token 的持续时间。联合网络产生两组输出:一组用于输出 token,另一组用于输出 token 的持续时间。模型假设 token 和持续时间是条件独立的,并基于此计算前向变量。论文详细推导了 TDT 模型的前向变量计算公式,并解释了如何通过这些变量计算整个序列的概率以及定义 TDT 损失函数。

(二)TDT 梯度计算

由于自动微分在 Transducer 损失上的效率低下,论文推导了 TDT 损失的解析解。梯度分为两部分:一部分针对 token 概率,另一部分针对持续时间概率。论文还引入了 Transducer 功能合并方法,直接计算 Transducer 损失对预 softmax logits 的梯度,以提高计算效率。

(三)Logits Under-normalization

在 TDT 模型训练中采用了 logits under-normalization 方法,以鼓励更长的持续时间。具体来说,模型在训练时使用伪“概率”进行前向和后向计算,通过在 log 领域计算 log 概率来提高数值稳定性,并推导了结合 logits under-normalization 方法的梯度。

(四)TDT 推理

论文比较了传统 Transducer 模型和 TDT 模型的推理算法。TDT 模型在推理过程中充分利用持续时间输出,通过计算从联合网络得到的额外持续时间分布来决定跳过多少帧,从而加速推理过程。

四、实验

(一)语音识别

实验在英语、德语和西班牙语的语音识别任务上进行,使用 Conformer-Large 编码器和无状态解码器。TDT 模型在不同语言的数据集上均取得了与基线相当或更好的准确率,并且在推理速度上显著提升。例如,在英语 Librispeech 测试集上,TDT 模型的配置 0-8 相对于 RNNT 基线模型,解码时间缩短了约 2.19 倍。

(二)语音翻译

在英语到德语的语音翻译任务中,TDT 模型在保持与 RNNT 基线模型相当的 BLEU 分数的同时,推理速度提升了高达 2.27 倍。这表明 TDT 模型在处理更复杂的序列转换任务时同样有效。

(三)口语理解

在口语理解任务中,TDT 模型在语音意图分类和槽填充任务上取得了新的最佳性能,并且在推理速度上比 RNNT 基线模型快 1.28 倍。尽管在该任务中音频序列通常比文本序列短,TDT 模型仍然展现出了显著的速度提升。

五、关键结论

(一)TDT 发射分析

通过在 Librispeech 测试集上的实验,论文分析了 TDT 模型在推理过程中预测的持续时间分布。结果表明,TDT 模型能够充分利用长持续时间,减少空白发射次数,接近理论上的最少解码步骤。

(二)TDT 批量推理

针对 TDT 模型在批量推理中面临的挑战,论文提出了一种改进的训练损失方法,将 TDT 损失与传统 Transducer 损失结合。实验表明,这种方法不仅解决了性能下降问题,还略微提高了 ASR 准确率,并实现了批量推理加速。

(三)TDT 对噪声的鲁棒性

论文对比了 TDT 和 RNNT 模型在不同信噪比(SNR)条件下的表现。结果表明,TDT 模型在噪声条件下比传统 Transducer 更具鲁棒性,WER 更低,且推理时间几乎不受 SNR 变化的影响。

(四)TDT 对重复 token 的鲁棒性

TDT 模型在处理包含重复 token 的文本序列时表现出更高的鲁棒性。实验显示,与传统 RNN-T 模型相比,TDT 模型在重复 digits 数据集上的 WER 显著降低,证明了其在处理重复 token 时的优势。

(五)TDT 与多空白 Transducer 的比较

与多空白 Transducer(MBT)相比,TDT 模型允许对非空白和空白符号都进行帧跳过,从而在相同最大持续时间配置下实现了更大的推理加速。

六、总结

论文提出的 TDT 模型通过在传统 Transducer 模型中加入显式的持续时间建模,在语音识别、语音翻译和口语理解等多个序列任务中均优于传统 Transducer 模型。TDT 模型不仅在准确率上表现相当或更好,而且在推理速度上显著提升,最高可达 2.82 倍加速。此外,TDT 模型在抗噪声和处理重复 token 方面也展现出更强的鲁棒性。未来的工作将致力于进一步提高 TDT 模型的计算效率和准确性,并开发高效的 TDT 模型束搜索算法。

在这里插入图片描述

http://www.xdnf.cn/news/4000.html

相关文章:

  • Android 控件CalendarView、TextClock用法
  • Notebook.ai 开源程序是一套工具,供作家、游戏设计师和角色扮演者创建宏伟的宇宙 - 以及其中的一切
  • GZ人博会自然资源系统(测绘)备考笔记
  • 25:三大分类器原理
  • 小刚说C语言刷题—1038编程求解数学中的分段函数
  • brpc 安装及使用
  • MVC、MVP、MVVM三大架构区别
  • HTML05:超链接标签及应用
  • C++笔记之反射、Qt中的反射系统、虚幻引擎中的反射系统
  • 利用jQuery 实现多选标签下拉框,提升表单交互体验
  • 动态指令参数:根据组件状态调整指令行为
  • AI Agent开发第50课-机器学习的基础-线性回归如何应用在商业场景中
  • 软考 系统架构设计师系列知识点 —— 黑盒测试与白盒测试(1)
  • GStreamer开发笔记(三):测试gstreamer/v4l2+sdl2/v4l2+QtOpengl打摄像头延迟和内存
  • 电赛经验分享——模块篇
  • android-ndk开发(4): linux开发机有线连接android设备
  • 命令模式(Command Pattern)
  • [USACO1.1] 坏掉的项链 Broken Necklace Java
  • C++ -- 内存管理
  • 探寻适用工具:AI+3D 平台与工具的关键能力及选型考量 (AI+3D 产品经理笔记 S2E03)
  • Java面试:微服务与大数据场景下的技术挑战
  • 《MATLAB实战训练营:从入门到工业级应用》高阶挑战篇-《5G通信速成:MATLAB毫米波信道建模仿真指南》
  • MySQL JOIN详解:掌握数据关联的核心技能
  • 【翻译、转载】【译文】模型上下文协议(Model Context Protocol, MCP)简介
  • java技术总监简历模板
  • Q_OBJECT宏的作用
  • 3.9/Q2,Charls最新文章解读
  • 基于 AI 的人像修复与编辑技术:CompleteMe 系统的研究与应用
  • 网络编程,使用select()进行简单服务端与客户端通信
  • 56、【OS】【Nuttx】编码规范解读(四)