当前位置: 首页 > ops >正文

Speech Synthesis/Text to Speech(TTS)

TTS before end-to-end

Traditional deep learning

Input samples——Feature extraction——Feature Selection——Classifier——Output samples

End to end

Concatenative Approach拼接法

speech from a large database由于是直接分割,发音割裂,效果不好

Parametric Approach参数合成法 

基于隐马尔科夫模型

Deep Voice

三个关键组件,Grapheme to phoneme根据字母猜测发音,Duration Prediction时长预测,Fundamental Frequency Prediction基频预测,将这三个部分结合,合成语音。

Tacotron:end to end TTS

Encoder部分

通过input embedding,对于transformer是需要position encodering的,但是这里不需要。

Pre-net通常是预训练好的MLP,一般有三种作用a.全连接,特征融合;b.非线性变换;c.dropout(防止过拟合),在这里是dropout的作用。

CBHG架构包含的内容如下:

因为是序列数据,采用一维卷积,Max pooling在保留重要信息的情况下减少计算量。

Residual connection防止退化问题。

Attention:Modeling Duration建模持续时间

将文本与语音对齐的作用,输出的音频和输入的文本必须单调对齐。

Decoder

http://www.xdnf.cn/news/9072.html

相关文章:

  • 写给这个阶段自我的一封信
  • Solr搜索:比传统数据库强在哪?
  • 【Ai】使用Ultralytics yolo做图片检测+使用roboflow做数据标注
  • 机器学习与深度学习5:pytorch前馈神经网络FNN实现手写数字识别
  • Halcon仿射变换---个人笔记
  • PySide6 GUI 学习笔记——常用类及控件使用方法(光标类图标QCursor)
  • 918. 环形子数组的最大和
  • 消费电子卷入“技术军备竞赛”
  • shell脚本基础
  • 记忆上传与自我同一性的哲学-技术综合分析
  • AI日报 - 2025年05月26日
  • 快速了解GO之Channel 通道
  • uv ——新的python包管理工具
  • 如何在 ONLYOFFICE 演示文稿中调整段落首行缩进
  • 第10章 网络与信息安全基础知识
  • 【分治】数组中的逆序对
  • 格恩朗管段超声波流量计:流量测量先锋
  • SD-WAN与传统网络结合:轨道交通网络优化的高效实践与深度解析
  • Day37打卡 @浙大疏锦行
  • 数据库入门:以商品订单系统为例
  • Nuxt.js vs Next.js:Vue 与 React 阵营的 SSR 双雄对比
  • python25-递归算法
  • 人工智能第一币AISPF,首发BitMart交易所
  • P5734 【深基6.例6】文字处理软件
  • Netty学习专栏(六):深度解析Netty核心参数——从参数配置到生产级优化
  • Lines of Thought in Large Language Models
  • (10)-java+ selenium->元素之By class name
  • window 显示驱动开发-Direct3D 呈现性能改进(一)
  • P1068 [NOIP 2009 普及组] 分数线划定
  • 机试 | STL | string | 文字处理软件