当前位置：首页 > ops >正文

了解神经网络声音定制，实现多情绪、多语言演绎

ops 2025/8/29 9:10:23

微软推出的 Custom Neural Voice（CNV，神经网络版声音定制功能）是 Azure AI Speech 文本转语音服务的一大亮点。它能够创建高度逼真且自然的 AI 语音，其效果与真人配音演员几乎无法区分。如今，CNV 已经支持多情感表达和跨语言能力。

自发布以来，CNV 已助力 AT&T、Progressive、Vodafone、Swisscom、海尔等众多国内外知名企业开发出具有品牌特色的语音解决方案，广泛应用于语音助手、客服机器人、有声读物、语言学习、新闻播报等场景，为用户带来了愉悦的听感体验。

多风格 CNV：传递不同情绪的语音

多风格 CNV 功能极大地提升了终端用户的使用体验。用户无需额外添加新的训练数据，通过风格转换技术，就能创建多风格、多情绪的语音表达。风格转换技术可以将源说话者的语调和韵律（包括节奏、语调、韵律）应用到目标说话者身上，同时保留目标说话者的音色。随着多风格 CNV 的推出，微软发布了新的美式英语风格转换模型，并将其功能扩展到汉语和日语。

创建多风格语音的步骤：

准备大约300多句话的语音样本（无需多风格语音数据）作为默认风格。
将数据导入 Speech Studio 门户，选择 Neural - multi style（神经网络 - 多风格）训练方法。
从预设风格列表中选择目标说话风格，或使用自己的风格数据创建自定义风格。
训练时间取决于数据大小、语言和风格选择，可能需要40小时或更久。模型创建成功后，系统会生成测试音频供评估。
测试完成后，将声音模型部署到云端，通过音频内容生成工具或语音开发工具包 SDK 创建新音频，无需编程。通过语音合成标记语言（SSML）可切换不同说话风格。

多语种 CNV：掌握不同语言的语音

在当今全球化的世界中，开发人员需要构建覆盖全球用户的语音应用程序。CNV 的跨语言迁移学习技术让定制声音轻松获得多语言能力，无需额外添加特定语言的训练数据，支持数十种语言。

跨语言模型基于 Conformer 架构，结合卷积神经网络和转换器，高效建模数据序列中的局部和全局关联性。微软采用数据平衡训练策略解决不同语言数据不平衡问题，提高低资源语言的模型性能。结合说话者分类器训练，减少跨语言说话者之间的相似性损失，提升跨语言语音的自然程度。

支持的语言：中文（普通话）、荷兰语（荷兰）、英语（澳大利亚、英国、美国）、法语（加拿大、法国）、德语（德国）、印度尼西亚语、意大利语、日语、韩语、葡萄牙语（巴西）、俄语、西班牙语（墨西哥、西班牙）。只需提供其中一种语言的录音数据，定制声音即可获得所有支持语言的能力。

创建多语种语音的步骤：

在训练方法中选择 Neural – cross lingual（神经 - 跨语言）。
选择目标语言，CNV 平台将 AI 声音转换为目标语言。
训练过程约需20小时，具体取决于数据大小和所选语言。通过测试样本来评估声音效果。
模型部署后，使用目标语言文本输入即可合成语音内容，可通过音频内容生成工具或语音 SDK 进行合成。

微软的多风格和多语种神经语音声音定制（CNV）功能已在 Azure 国际版推出，对于希望构建与全球用户无缝交流的语音应用程序的开发人员来说，这是一项具有革命性意义的进步。

深圳领驭科技有限公司作为微软中国南区核心合作伙伴及 HK CSP 资质持有者，是首批获 Azure OpenAI 服务授权的服务商之一。公司积极将 Azure OpenAI 的自然语言处理、分析和推理等强大功能整合到产品与行业解决方案中。

Azure OpenAI 服务凭借大规模生成式 AI 模型，支持企业按需开发创新应用，如辅助写作、代码编写、多媒体内容生成和数据分析等，广泛影响互联网、游戏、金融、零售、医药等行业及自动驾驶、智能制造等前沿技术领域。

http://www.xdnf.cn/news/5520.html

相关文章：

Java—— 集合 Set

Android HttpAPI通信问题（待解决）

【人工智能-agent】--Dify中自然语言生成SQL查询数据库

Java学习手册：客户端负载均衡

基于LNMP架构的个人博客系统部署

DDD领域驱动开发

基于 51 单片机的 PWM 电机调速系统实现

https的发展历程

区块链钱包开发全解析：从架构设计到安全生态构建

【c++】异常详解

计网学习笔记———通信知识（计算机网络通信单独讲）

Python 处理图像并生成 JSONL 元数据文件 - 灵活text版本

亚川科技YCS-7000 建筑设备一体化监控系统选型说明与配置原理

NVIDIA Isaac™ AI 机器人开发平台笔记

从经典力扣题发掘DFS与记忆化搜索的本质 -从矩阵最长递增路径入手一步步探究dfs思维优化与编程深度思考

木马查杀篇—Opcode提取

Ubuntu中配置【Rust 镜像源】

Arduino快速入门

Chrome更新到136以后selenium等自动化浏览器失效

CSS-PureCss样式开发

浅谈大语言模型原理

DHCP自动分配IP

01-centos离线升级至almalinux

Meilisearch 安装

【番外】02：Windows 编译带 DNN_CUDA 功能的 OpenCV 动态链接库

Node.js中那些常用的进程通信方式

bazel迁移cmake要点及具体迁移工程示例(apollo radar)

SDK does not contain ‘libarclite‘ at the path

【前端】骨架屏

深度解析LLM参数：Top-K、Top-p和温度如何影响输出随机性？