当前位置: 首页 > news >正文

【ASR】基于分块非自回归模型的流式端到端语音识别

论文地址:https://arxiv.org/abs/2107.09428

摘要

非自回归 (NAR) 模型在语音处理中越来越受到关注。 凭借最新的基于注意力的自动语音识别 (ASR) 结构,与自回归 (AR) 模型相比,NAR 可以在仅精度略有下降的情况下实现有前景的实时因子 (RTF) 提升。 然而,识别推理需要等待完整语音话语的完成,这限制了其在低延迟场景中的应用。 为了解决这个问题,我们提出了一种新颖的端到端流式 NAR 语音识别系统,该系统结合了分块注意力和带有掩码预测 (Mask-CTC) NAR 的连接主义时间分类。 在推理过程中,输入音频被分成小的块,然后以分块流式的方式进行处理。 为了解决每个块输出边缘处的插入和删除错误,我们应用了一种带有动态映射技巧的重叠解码策略,该策略可以生成更连贯的句子。 实验结果表明,与普通的 Mask-CTC 相比,该方法在低延迟条件下提高了在线 ASR 识别率。 此外,与基于 AR 注意力的模型相比,它可以实现更快的推理速度。 我们所有的代码都将在 https://github.com/espnet/espnet 公开发布。

关键索引词:非自回归语音识别,流式 ASR,分块注意力,Mask-CTC

1、引言

在过去几年中,深度学习的进步极大地提高了端到端 (E2E) 自动语音识别 (ASR) 的性能 [1, 2, 3]。 大多数这些 E2E-ASR 研究都是基于自回归 (AR) 模型,并且它们取得了最先进的性能 [4]。 然而,AR 模型的一个缺点是推理时间随着输出长度线性增加。 近年来,非自回归 (NAR) 模型在序列到序列任务中越来越受到关注,包括机器翻译[5, 6, 7]、语音识别 (ASR)[1, 8, 9, 10, 11]和语音翻译[12]。 与自回归 (AR) 模型相比,NAR 模型可以同时预测输出符元,其推理速度比 AR 模型快得多。 特别是,连接时序分类 (CTC) 是一种流行且简单的 NAR 模型[1, 6]。 然而,CTC 对预测的符元之间作出了强烈的条件独立性假设,导致其性能不如基于 AR 注意力的模型[13]。

为了克服这个问题,ASR 领域提出了一些 NAR 研究。 A-FMLM[14] 旨在根据未掩码的符元和输入语音预测掩码符元。 然而,它需要首先预测输出长度,这很困难,并且容易导致较长的输出序列。 Imputer [8] 直接使用输入特征序列的长度来解决问题并与AR模型达到可比性的性能,但是计算成本可能非常大。 ST-NAR[15] 使用 CTC 预测目标长度并指导解码。 它速度很快,但与 AR 模型相比,精度下降幅度很大。 与以前的方法不同,Mask-CTC[16] 首先使用 CTC 的贪婪解码生成输出符元,然后通过掩码预测解码器[7]细化置信度低的符元。 Mask-CTC 通常预测长度合理的序列,并且可以实现快速的推理速度,比基于 AR 注意力的模型快 7 倍。

除了快速推理之外,延迟也是用于实时语音接口的 ASR 系统需要考虑的重要因素。 之前已经有很多关于基于循环神经网络换能器 (RNN-T)[2, 13, 17, 18] 的低延迟端到端 ASR 和具有 AR 模型的在线基于注意力的编码器解码器 (AED),例如单调分块注意 (MoChA)[19, 20]、触发注意[21]和分块注意[22, 23]的研究。

受此类在线 AR AED 研究和新兴 NAR 研究趋势的启发,我们提出了一种新颖的端到端流式 NAR 语音识别系统,它结合了分块注意和 Mask-CTC 模型。 在推理过程中,输入音频首先被分割成带有连续块之间50%重叠的小块。CTC首先基于块级注意力编码器的输出,通过高效的贪婪前向遍历预测每个块的初步符元。为了解决CTC输出中经常出现在每个块边界处的插入和删除错误,我们应用了一种动态重叠策略[24]来生成连贯的句子。 然后,低置信度符元被掩盖,并由一个基于其余符元的掩码预测NAR解码器[25]重新预测。 贪婪CTC、动态重叠解码和掩码预测都运行速度非常快,因此可以实现非常低的实时因子(RTF)。 我们在TEDLIUM2 [26]和AISHELL1 [27]上评估了我们的方法。 与普通的全注意力Mask-CTC相比,我们的方法在低延迟条件下降低了在线ASR识别错误率,并且具有非常快的推理速度。 据我们所知,这是第一个将NAR机制扩展到流式ASR的工作。

与其他流式ASR研究的关系

最近流式ASR最重要的成功是RNN-T及其变体。 基于RNN-T的系统实现了流式应用中最先进的ASR性能,并成功部署在生产系统中[17, 18, 28, 29]。 然而,循环机制使用循环层根据所有之前的符元预测当前输入帧的符元,NAR难以轻松应用于此。 此外,本文中的几个想法受到了在线AR AED架构[24, 22, 23]的启发,因为它们与基于相似编码器-解码器框架的NAR模型具有更多技术联系。

2、Mask-CTC

Mask-CTC是一个非自回归模型,它使用CTC目标和掩码预测目标进行训练[16],其中掩码预测解码器根据CTC输出符元和编码器输出预测掩码符元。 CTC基于帧之间条件独立性的假设预测帧级输入-输出对齐。 它对输出序列的概率进行建模,方法是将所有可能的对齐方式相加,其中 P(Y|X) 表示输出序列,而 Y 表示输入音频。 X 然而,由于条件独立性假设,CTC 失去了对输出符元之间相关性建模的能力,从而导致性能下降。 但是,由于有条件的独立性假设,CTC失去了产出 Token 之间建模相关性和因此失去性能的能力。

Mask-CTC旨在通过采用基于注意力的解码器作为掩盖语言模型(MLM) [7,30] 来减轻此问题,并迭代完善CTC贪婪解码的输出。 在训练过程中,真实情况中的标记会被随机选择并替换为特殊的⟨mask⟩符元, 以其余未被掩码的符元为条件, Y_{mask} 以及基于注意力的编码器输出。 Y_{obs} 其中 H_{enc}表示基于多头自注意力的编码器。

MHSAEncoder(⋅) Mask-CTC 模型通过 CTC 和 MLM 目标的加权和进行优化: Mask-CTC模型通过CTC和MLM目标的加权总和进行了优化:其中 γ 是一个可调超参数。

3、流式NAR

所提出的端到端流式NAR语音识别系统的整体架构如图1所示。 与Mask-CTC相比,主要区别在于用分块注意力编码器替换了公式(1)所示的基于普通多头自注意力机制的编码器(例如Transformer/Conformer),从而使模型能够进行流式处理。

图1: 所提出的流式NAR架构

3.1、分块注意力编码器

为了构建基于AED的流式ASR系统,编码器只能访问有限的未来上下文。 我们使用基于分块注意力(BA)的编码器[22, 23],而不是普通的多头自注意力(MHSA)。 在基于BA的编码器中,输入序列X被分成固定长度的块 X=[X_b]^B_{b=0},其中 X_b=[x_{bl},...,x_{(b+1)l-1}。 这里 b 是块索引, B 是整个输入中最后一个块的索引,并且 l 是块长度。 在分块注意力的计算中,每个块只关注当前块和前一个块中前一层网络的输出。 第 b 个块定义如下:

其中 Z^{i}_b 是编码器第 i 个块的输出, b-th block,Z^0=X的三个参数 MHSA(⋅) 分别是查询、键和值矩阵变量。 同样,Conformer编码器中的分块深度卷积(BDC)定义如下:

其中 CONV(⋅) 是1D深度卷积,并且 BPAD(⋅) 指的是分块填充,它在右侧边缘填充零,并在 Z^i_{b-1}的左侧边缘填充 Z^{i-1}_b以保持输入/输出维度相同。 其余操作,例如逐点卷积和激活函数,与Conformer[31]中的相同。

3.2、分块掩码-CTC

如图1所示,提出的端到端流式NAR语音识别系统由基于分块注意力的编码器、CTC、动态映射过程和MLM解码器组成。 为方便起见,训练过程中我们使用完整的音频作为输入。 但由于编码器的计算是分块进行的,因此一个块内的 CTC 输出仅取决于当前块和前一个块的输入。 本文遵循 NAR 方法,对 CTC 应用贪婪解码,该方法在每个时间步选择概率最高的符元。 贪婪解码 CTC 的每个块的输出为:

其中 b \in [0,..,B], t_{i,b} 表示第 i 个时间步属于第 b 个块, t_{i,b} \in [t_{0,b},...,t_{l-1,b}] BAEncoder 指的是第 3.1节中提到的分块注意力编码器, X_{-1} 在计算过程中被设置为与 X_b 大小相同的零矩阵。 同时,真实目标符元被随机掩蔽,并由 MLM 解码器重新预测。

在推理过程中,输入在线分割成具有 50% 重叠的固定长度块,并以流式方式馈送到编码器。 编码器前向传递和 CTC 解码与训练过程相同。 如图 1 所示,虚线表示 CTC 输出 y_{b-1} 对应于输入块 X_{b-1},实线表示 CTC 输出 y_bX_b。 在y_{b-1}y_b 之间重叠的符元上应用了一种动态映射技巧,以生成连贯的输出。 更多细节将在第3.3节中展示。 然后,来自 CTC 解码输出的置信度分数低的符元,\pi_{0..B},被屏蔽并由 MLM 解码器重新预测。 预测过程分多个迭代进行。 在每次迭代中,将具有较高预测概率的符元填充到被屏蔽的位置,并将重新填充的序列用作下一迭代的输入。

其中 Y0^ 表示来自 CTC 输出的被屏蔽的符元序列, m 表示重新预测的迭代次数, yk,m 表示 k 第 mth 次迭代中重预测的符元, yk,m 然后被填充到预测的序列中 Y^m−1 在相应的掩蔽位置以形成 mth 预言 Y^m. Y^N 将是最终输N 是迭代的总数。

3.3、用于重叠推断的动态映射

尽管将输入音频分为固定长度是一种直接形成流式ASR的方法,但它将在块边界处导致可怕的性能退化。 一个段边界可能出现在 Token 的中间,导致一个 Token 可能在两个连续的块中具有重复识别或不认可。 基于VAD的细分方法是解决问题的一种方法,但它对阈值敏感并可能导致较大的延迟。

在本文中,我们像 [24] 中的动态映射技巧一起应用了重叠的推断,以恢复边界处的错误输出,如算法1所示。 在推理期间,我们使用 50% 分割输入音频时重叠,这可以确保由编码器和CTC预测输入音频的任何框架。 通过定位符元索引在 y_b 最接近于中心点的位置, C_b 我们动态搜索( y_{b,:idx_b}y_{b-1,idx_{b-1}:}). 正规化指的是从CTC输出中去除重复和空白符元 C_b。遵循评分函数:Score(t^j_b)=-|j-(l-1)/2|,我们选择最佳对齐路径上符元对中的一个符元作为重叠段的输出。 这里 t^j_b指的是 j-th个符元在 b-th 块中,而 l 是块长度。

算法1 、CTC重叠解码和动态映射

4、实验

4.1、实验设置和数据集

我们评估了有关中文和英语语音语料库的提议模型:tedlium2 [26] 和aishell1 [27] 。 对于所有实验,输入特征为80维对数梅尔滤波器组,并包含基于25毫秒帧长和10毫秒帧移计算的基音特征。我们使用Kaldi Toolkit [32] 进行特征提取。 我们还应用速度扰动(速度= 0.9、1.0、1.1)和频谱增强 [33] 用于数据增强。 通过全文解码和流解码来评估模型。

所有实验均使用开源,E2E语音处理工具包ESPNET [34,35,31] 进行。 编码器首先包含2个CNN块,将输入简单采样至 1/4,然后是12个基于MHSA的层。 在流NAR中,基于BA的层(等式4, 5)在编码器中用于替换MHSA。 解码器具有类似的堆叠块结构,具有6层,只有全注意 Transformer 块。 对于本文中的任何自我发挥作用,我们都会使用 h=4 平行注意力头,尺寸 d^{att}=256. 对于馈送层,我们使用维度 d^{ffn}=2048并将其应用于激活功能。 在自我注意事项中,在输入 [36] 中增强了相对位置嵌入。 我们使用 15 作为构象卷积的内核大小。 TEDLIUM2上的模型经过200个时期的训练,Aishell1上的模型接受了150个时期的训练。 评估是在最佳10个检查站的平均模型上进行的。 在解码过程中,我们不整合语言模型。

4.2、结果

表1显示了TEDLIUM2结果,包括DEV/测试集,平均延迟和实时因子(RTF)上的单词错误率(WER)。 在CPU平台(Intel(r)Xeon(R)CPU E5-2686 V4 @ 2.3GHz)上测量了潜伏期和RTF。 我们设置了块长度 l=16,对应于 640MS在子采样之前。 全文评估是在话语级别上完成的,而流式评估是在每个说话者的未分段流音频上完成的。 由于很难用长期未分段的音频来定义延迟,因此我们用Dev计算了平均每条话的平均延迟:

最后一个 Token 发射的时间是模型预测最后一个 Token 的时间戳,语音的结束是通过强迫与外部模型对齐来确定的。 该延迟视为既延迟延迟又是计算时间。 为了进行比较,我们还通过测量每个发音的平均解码时间来报告全文解码的延迟,因为在全文中,在整个音频喂食之前无法启动。

与Mask-CTC相比,所提出的流式NAR模型在流模式下的性能要好得多。 使用构象异构器编码器,Mask-CTC开发的WER为23.5,平均延迟为310ms,而流NAR的延迟为12.1,平均延迟为140ms。 RTF的速度分别比基于AR注意力的模型的速度分别= 1/10 = 1/10。 Mask-CTC模型接受了完整的上下文输入培训,并通过完整的将来的信息更好地工作。 我们可以在流解码模式下观察到显着的降解,这是由于训练和解码过程中的输入不匹配。 另一方面,提出的流媒体NAR只能以较小的未来上下文识别当前框架,因此与流推断非常吻合。 但是,在提出的模型中,WERS从完整上下文模式(从10.4/9.4到12.1/11.7)增加。 原因是在段边界上列出的错误。 从我们的观察结果来看,这些错误可以缓解,但不能完全通过动态映射来解决,即使有较大的块长度也存在。

表2显示了Aishell1上的结果。 由于用于构象异构体和面罩的超参数需要仔细调整,并且在我们的初步实验中很容易拟合模型,因此我们仅在AISHELL1任务上报告 Transformer 结果。 当在流媒体NAR时提供全文时,香草蒙版-CTC在流媒体解码过程中提供了更好的效果,但是在流媒体解码方面更好,但是好处小于TEDLIUM2中的收益。 一个可能的原因是,Aishell1中的训练话语比Tedlium2短得多。 全文的关注还可以获得仅在未来的短暂上下文中识别的能力。

为了了解在不同延迟下流媒体NAR的性能,在表3中,我们比较了teDlium2上的块意见 Transformer (BA-TF)和块关注构象异构体(BA-CF)的WERS。 我们观察到,随着块长度变短,延迟变小,而RTF上升时,由于较短的块需要更多的迭代才能转发整个输入音频。 此外,当块长度从5120ms降低到1280ms时,结果很少会改变。 它表明在流媒体ASR中,更接近的未来上下文比遥远的播放器更活跃。

表1:TEDLIUM2:在dev/test上的WERs、平均延迟和RTF被报告。所有流式解码模式使用640ms输入段。基于注意力的AR和Mask-CTC模型使用传统注意力进行训练,而提出的流式NAR使用块状注意力,块长度为640ms。

表2:AISHELL1:报告了WERs、平均延迟和RTF。所有流式推理使用1280ms输入段。基于注意力的AR和Mask-CTC模型使用传统注意力,而提出的流式NAR使用块状注意力,块长度为1280ms。

表3:在TEDLIUM2上对提出的具有不同块长度(BL)的流式NAR模型进行的WERs和RTF,所有实验都是在流式模式下进行的。

5、结论

在这篇论文中,我们提出了一种新颖的端到端流式NAR语音识别系统。具体来说,我们结合了基于块状注意力的编码器(Encoder)和Mask-CTC。此外,我们应用了动态重叠推理来减轻边界处的错误。与传统的掩码CTC相比,所提出的流式NAR模型在全文解码方面实现了具有竞争力的性能,并且与传统的掩码CTC流式解码相比,具有非常低的语音延迟。此外,在束宽(beam size)分别为1和10时,所提出模型的解码速度比基于AR注意力的模型分别快约2倍和10倍。我们的未来计划是开发更好的边界定位方法来替代重叠推理,并在解码过程中集成外部语言模型。

6、确认

我们想感谢早稻田大学的Higuch Yusuke先生关于Mask-CTC的有价值信息。

参考

  • [1]A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in Proceedings of the 23rd international conference on Machine learning, 2006, pp. 369–376.
  • [2]A. Graves, “Sequence transduction with recurrent neural networks,” arXiv preprint arXiv:1211.3711, 2012.
  • [3]J. Chorowski, D. Bahdanau, K. Cho, and Y. Bengio, “End-to-end continuous speech recognition using attention-based recurrent nn: First results,” arXiv preprint arXiv:1412.1602, 2014.
  • [4]A. Gulati, J. Qin, C.-C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu et al., “Conformer: Convolution-augmented transformer for speech recognition,” arXiv preprint arXiv:2005.08100, 2020.
  • [5]J. Gu, J. Bradbury, C. Xiong, V. O. Li, and R. Socher, “Non-autoregressive neural machine translation,” arXiv preprint arXiv:1711.02281, 2017.
  • [6]J. Libovickỳ and J. Helcl, “End-to-end non-autoregressive neural machine translation with connectionist temporal classification,” arXiv preprint arXiv:1811.04719, 2018.
  • [7]M. Ghazvininejad, O. Levy, Y. Liu, and L. Zettlemoyer, “Mask-predict: Parallel decoding of conditional masked language models,” in in Proc. EMNLP-IJCNLP, 2019, pp. 6114–6123.
  • [8]W. Chan, C. Saharia, G. Hinton, M. Norouzi, and N. Jaitly, “Imputer: Sequence modelling via imputation and dynamic programming,” in International Conference on Machine Learning. PMLR, 2020, pp. 1403–1413.
  • [9]Y. Fujita, S. Watanabe, M. Omachi, and X. Chang, “Insertion-based modeling for end-to-end automatic speech recognition,” Proc. Interspeech 2020, pp. 3660–3664, 2020.
  • [10]E. A. Chi, J. Salazar, and K. Kirchhoff, “Align-refine: Non-autoregressive speech recognition via iterative realignment,” arXiv preprint arXiv:2010.14233, 2020.
  • [11]R. Fan, W. Chu, P. Chang, and J. Xiao, “Cass-nat: Ctc alignment-based single step non-autoregressive transformer for speech recognition,” arXiv preprint arXiv:2010.14725, 2020.
  • [12]H. Inaguma, Y. Higuchi, K. Duh, T. Kawahara, and S. Watanabe, “Orthros: Non-autoregressive end-to-end speech translation with dual-decoder,” arXiv preprint arXiv:2010.13047, 2020.
  • [13]E. Battenberg, J. Chen, R. Child, A. Coates, Y. G. Y. Li, H. Liu, S. Satheesh, A. Sriram, and Z. Zhu, “Exploring neural transducers for end-to-end speech recognition,” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2017, pp. 206–213.
  • [14]N. Chen, S. Watanabe, J. Villalba, and N. Dehak, “Listen and fill in the missing letters: Non-autoregressive transformer for speech recognition,” arXiv preprint arXiv:1911.04908, 2019.
  • [15]Z. Tian, J. Yi, J. Tao, Y. Bai, S. Zhang, and Z. Wen, “Spike-triggered non-autoregressive transformer for end-to-end speech recognition,” arXiv preprint arXiv:2005.07903, 2020.
  • [16]Y. Higuchi, S. Watanabe, N. Chen, T. Ogawa, and T. Kobayashi, “Mask ctc: Non-autoregressive end-to-end asr with ctc and mask predict,” arXiv preprint arXiv:2005.08700, 2020.
  • [17]A. Tripathi, J. Kim, Q. Zhang, H. Lu, and H. Sak, “Transformer transducer: One model unifying streaming and non-streaming speech recognition,” arXiv preprint arXiv:2010.03192, 2020.
  • [18]M. Jain, K. Schubert, J. Mahadeokar, C.-F. Yeh, K. Kalgaonkar, A. Sriram, C. Fuegen, and M. L. Seltzer, “Rnn-t for latency controlled asr with improved beam search,” arXiv preprint arXiv:1911.01629, 2019.
  • [19]C.-C. Chiu and C. Raffel, “Monotonic chunkwise attention,” arXiv preprint arXiv:1712.05382, 2017.
  • [20]H. Inaguma, M. Mimura, and T. Kawahara, “Enhancing monotonic multihead attention for streaming asr,” arXiv preprint arXiv:2005.09394, 2020.
  • [21]N. Moritz, T. Hori, and J. Le, “Streaming automatic speech recognition with the transformer model,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6074–6078.
  • [22]H. Miao, G. Cheng, C. Gao, P. Zhang, and Y. Yan, “Transformer-based online ctc/attention end-to-end speech recognition architecture,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6084–6088.
  • [23]E. Tsunoo, Y. Kashiwagi1, and S. Watanabe, “Streaming transformer asr with blockwise synchronous beam search,” in Proc. SLT, 2021, pp. 22–29.
  • [24]C.-C. Chiu, W. Han, Y. Zhang, R. Pang, S. Kishchenko, P. Nguyen, A. Narayanan, H. Liao, S. Zhang, A. Kannan et al., “A comparison of end-to-end models for long-form speech recognition,” in 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2019, pp. 889–896.
  • [25]Y. Higuchi, H. Inaguma, S. Watanabe, T. Ogawa, and T. Kobayashi, “Improved mask-ctc for non-autoregressive end-to-end asr,” arXiv preprint arXiv:2010.13270, 2020.
  • [26]A. Rousseau, P. Deléglise, Y. Esteve et al., “Enhancing the ted-lium corpus with selected data for language modeling and more ted talks.” in LREC, 2014, pp. 3935–3939.
  • [27]H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline,” in 2017 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA). IEEE, 2017, pp. 1–5.
  • [28]B. Li, S.-y. Chang, T. N. Sainath, R. Pang, Y. He, T. Strohman, and Y. Wu, “Towards fast and accurate streaming end-to-end asr,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6069–6073.
  • [29]J. Mahadeokar, Y. Shangguan, D. Le, G. Keren, H. Su, T. Le, C.-F. Yeh, C. Fuegen, and M. L. Seltzer, “Alignment restricted streaming recurrent neural network transducer,” in 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021, pp. 52–59.
  • [30]N. Chen, S. Watanabe, J. Villalba, and N. Dehak, “Nonautoregressive transformer automatic speech recognition,” arXiv preprint arXiv:1911.04908, 2019.
  • [31]P. Guo, F. Boyer, X. Chang, T. Hayashi, Y. Higuchi, H. Inaguma, N. Kamo, C. Li, D. Garcia-Romero, J. Shi et al., “Recent developments on espnet toolkit boosted by conformer,” arXiv preprint arXiv:2010.13956, 2020.
  • [32]D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, and K. Vesely, “The kaldi speech recognition toolkit,” in IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. IEEE Signal Processing Society, Dec. 2011, iEEE Catalog No.: CFP11SRW-USB.
  • [33]D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le, “Specaugment: A simple data augmentation method for automatic speech recognition,” arXiv preprint arXiv:1904.08779, 2019.
  • [34]S. Watanabe, T. Hori, S. Karita, T. Hayashi, J. Nishitoba, Y. Unno, N. Enrique Yalta Soplin, J. Heymann, M. Wiesner, N. Chen, A. Renduchintala, and T. Ochiai, “ESPnet: End-to-end speech processing toolkit,” in Proceedings of Interspeech, 2018, pp. 2207–2211. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2018-1456
  • [35]S. Karita, N. Chen, T. Hayashi, T. Hori, H. Inaguma, Z. Jiang, M. Someki, N. E. Y. Soplin, R. Yamamoto, X. Wang et al., “A comparative study on transformer vs rnn in speech applications,” in 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2019, pp. 449–456.
  • [36]Z. Dai, Z. Yang, Y. Yang, J. Carbonell, Q. V. Le, and R. Salakhutdinov, “Transformer-xl: Attentive language models beyond a fixed-length context,” arXiv preprint arXiv:1901.02860, 2019.
http://www.xdnf.cn/news/674209.html

相关文章:

  • qt之开发大恒usb3.0相机二
  • Pytorch
  • 题目 3341: 蓝桥杯2025年第十六届省赛真题-抽奖
  • 颠覆传统,智领未来——UMI企业智脑:重新定义企业智能化转型的全新可能
  • 不同电脑同一个网络ip地址一样吗?如何更改
  • ODSA架构与操作-1
  • 【Elasticsearch】_update api的增量更新
  • 企业级RAG技术实战指南:从理论到落地的全景解析
  • .NET用C#设置Excel单元格和工作表的背景
  • AI大模型学习三十、ubuntu安装comfyui
  • vue3简介以及创建第一个vue3工程
  • 无人机仿真环境(3维)附项目git链接
  • 仓颉入门:特性
  • Elasticsearch的运维
  • ubuntu20.04安装CUDA、Cudnn
  • 深度学习————注意力机制模块
  • Milvus向量数据库DML操作实战教程
  • android平台驱动开发(四)--系统属性节点控制GPIO
  • 字节跳动BAGEL-7B-MoT模型开源:多模态AI技术的新范式与行业涟漪
  • Python爬虫实战:研究Playwright框架相关技术
  • SD07_NVM的安装及相关操作
  • 解码STREAM:GEO技术方法论全解析
  • 多空短线决策副图指标,通达信炒股软件指标操盘图文教程
  • 安卓学习笔记-声明式UI
  • 2025年5月蓝桥杯stema省赛真题——象棋移动
  • ViewModel
  • MySQL问题:主要索引类型(聚簇、辅助、覆盖、前缀)
  • WPF中的图标闪烁功能
  • ubuntu 制作 ssl 证书
  • WEB安全威胁与SSL