当前位置: 首页 > ops >正文

了解神经网络声音定制,实现多情绪、多语言演绎

微软推出的 Custom Neural Voice(CNV,神经网络版声音定制功能)是 Azure AI Speech 文本转语音服务的一大亮点。它能够创建高度逼真且自然的 AI 语音,其效果与真人配音演员几乎无法区分。如今,CNV 已经支持多情感表达和跨语言能力。

自发布以来,CNV 已助力 AT&T、Progressive、Vodafone、Swisscom、海尔等众多国内外知名企业开发出具有品牌特色的语音解决方案,广泛应用于语音助手、客服机器人、有声读物、语言学习、新闻播报等场景,为用户带来了愉悦的听感体验。

多风格 CNV:传递不同情绪的语音

多风格 CNV 功能极大地提升了终端用户的使用体验。用户无需额外添加新的训练数据,通过风格转换技术,就能创建多风格、多情绪的语音表达。风格转换技术可以将源说话者的语调和韵律(包括节奏、语调、韵律)应用到目标说话者身上,同时保留目标说话者的音色。随着多风格 CNV 的推出,微软发布了新的美式英语风格转换模型,并将其功能扩展到汉语和日语。

创建多风格语音的步骤:

  1. 准备大约300多句话的语音样本(无需多风格语音数据)作为默认风格。
  2. 将数据导入 Speech Studio 门户,选择 Neural - multi style(神经网络 - 多风格)训练方法。
  3. 从预设风格列表中选择目标说话风格,或使用自己的风格数据创建自定义风格。
  4. 训练时间取决于数据大小、语言和风格选择,可能需要40小时或更久。模型创建成功后,系统会生成测试音频供评估。
  5. 测试完成后,将声音模型部署到云端,通过音频内容生成工具或语音开发工具包 SDK 创建新音频,无需编程。通过语音合成标记语言(SSML)可切换不同说话风格。

多语种 CNV:掌握不同语言的语音

在当今全球化的世界中,开发人员需要构建覆盖全球用户的语音应用程序。CNV 的跨语言迁移学习技术让定制声音轻松获得多语言能力,无需额外添加特定语言的训练数据,支持数十种语言。

跨语言模型基于 Conformer 架构,结合卷积神经网络和转换器,高效建模数据序列中的局部和全局关联性。微软采用数据平衡训练策略解决不同语言数据不平衡问题,提高低资源语言的模型性能。结合说话者分类器训练,减少跨语言说话者之间的相似性损失,提升跨语言语音的自然程度。

支持的语言:中文(普通话)、荷兰语(荷兰)、英语(澳大利亚、英国、美国)、法语(加拿大、法国)、德语(德国)、印度尼西亚语、意大利语、日语、韩语、葡萄牙语(巴西)、俄语、西班牙语(墨西哥、西班牙)。只需提供其中一种语言的录音数据,定制声音即可获得所有支持语言的能力。

创建多语种语音的步骤:

  1. 在训练方法中选择 Neural – cross lingual(神经 - 跨语言)。
  2. 选择目标语言,CNV 平台将 AI 声音转换为目标语言。
  3. 训练过程约需20小时,具体取决于数据大小和所选语言。通过测试样本来评估声音效果。
  4. 模型部署后,使用目标语言文本输入即可合成语音内容,可通过音频内容生成工具或语音 SDK 进行合成。

微软的多风格和多语种神经语音声音定制(CNV)功能已在 Azure 国际版推出,对于希望构建与全球用户无缝交流的语音应用程序的开发人员来说,这是一项具有革命性意义的进步。

深圳领驭科技有限公司作为微软中国南区核心合作伙伴及 HK CSP 资质持有者,是首批获 Azure OpenAI 服务授权的服务商之一。公司积极将 Azure OpenAI 的自然语言处理、分析和推理等强大功能整合到产品与行业解决方案中。

Azure OpenAI 服务凭借大规模生成式 AI 模型,支持企业按需开发创新应用,如辅助写作、代码编写、多媒体内容生成和数据分析等,广泛影响互联网、游戏、金融、零售、医药等行业及自动驾驶、智能制造等前沿技术领域。

http://www.xdnf.cn/news/5520.html

相关文章:

  • Java—— 集合 Set
  • Android HttpAPI通信问题(待解决)
  • 【人工智能-agent】--Dify中自然语言生成SQL查询数据库
  • Java学习手册:客户端负载均衡
  • 基于LNMP架构的个人博客系统部署
  • DDD领域驱动开发
  • 基于 51 单片机的 PWM 电机调速系统实现
  • https的发展历程
  • 区块链钱包开发全解析:从架构设计到安全生态构建
  • 【c++】异常详解
  • 计网学习笔记———通信知识(计算机网络通信单独讲)
  • Python 处理图像并生成 JSONL 元数据文件 - 灵活text版本
  • 亚川科技YCS-7000 建筑设备一体化监控系统选型说明与配置原理
  • NVIDIA Isaac™ AI 机器人开发平台笔记
  • 从经典力扣题发掘DFS与记忆化搜索的本质 -从矩阵最长递增路径入手 一步步探究dfs思维优化与编程深度思考
  • 木马查杀篇—Opcode提取
  • Ubuntu中配置【Rust 镜像源】
  • Arduino快速入门
  • Chrome更新到136以后selenium等自动化浏览器失效
  • CSS-PureCss样式开发
  • 浅谈大语言模型原理
  • DHCP自动分配IP
  • 01-centos离线升级至almalinux
  • Meilisearch 安装
  • 【番外】02:Windows 编译带 DNN_CUDA 功能的 OpenCV 动态链接库
  • Node.js中那些常用的进程通信方式
  • bazel迁移cmake要点及具体迁移工程示例(apollo radar)
  • SDK does not contain ‘libarclite‘ at the path
  • 【前端】骨架屏
  • 深度解析LLM参数:Top-K、Top-p和温度如何影响输出随机性?