当前位置：首页 > news >正文

开源轻量级语音合成和语音克隆模型：OuteTTS-1.0-0.6B

news 2025/7/13 8:02:30

OuteTTS Version 1.0

一、OuteTTS 版本更新概述

OuteTTS Version 1.0 在语音合成和语音克隆方面带来了重大改进，提供了更强大、准确且用户友好的体验，同时保持了紧凑的体积。

二、OuteTTS Python 包新版本介绍

OuteTTS Python Package v0.4.2 新增了批量推理生成功能，与最新的 OuteTTS 发布版本相匹配。

三、Batched RTF 基准测试

在 NVIDIA L40S GPU 上进行了测试，展示了不同配置下的实时因子与批量大小的关系。

四、快速入门指南

安装：提供了安装说明链接。
基本设置 ：
- 导入必要的模块，如 Interface、ModelConfig、GenerationConfig、Backend、InterfaceVersion、M 等。
- 初始化接口，使用 ModelConfig.auto_config 方法配置模型和后端。
- 加载默认的英语说话者配置文件，也可以创建和保存自定义说话者。
- 使用接口的 generate 方法生成语音并保存为文件。
批量设置 ：
- 同样导入相关模块。
- 初始化接口时，选择支持批量处理的后端，如 VLLM。
- 加载说话者配置文件。
- 在生成语音时，指定生成类型为批量（BATCH），并可根据需要调整最大批量大小和 DAC 解码块大小等参数。
- 保存生成的语音文件。

五、更多配置选项

建议用户访问官方仓库获取更高级的设置和定制化选项。

六、多语言能力

支持的语言 ：包括英语、中文、荷兰语、法语、格鲁吉亚语、德语、匈牙利语、意大利语、日语、韩语、拉脱维亚语、波兰语、俄语、西班牙语等。
超出支持语言的情况 ：模型可以在未训练的语言上生成语音，但效果可能因语言而异。

七、使用建议

说话者参考 ：模型设计用于带有说话者参考，这样可以继承参考说话者的情感、风格和口音，提高输出质量。
多语言应用 ：建议为打算使用的语言创建说话者配置文件，以获得更好的结果，包括音调、口音和语言特征。虽然支持跨语言语音，但仍依赖参考说话者。
最佳音频长度 ：单次运行生成大约 42 秒（约 8,192 个标记）的音频效果最佳，一般建议不超过 7,000 个标记。如果参考说话者音频长度为 10 秒，则有效上下文减少到约 32 秒。
温度设置建议 ：测试表明，温度 0.4 是准确性的理想起点，但根据不同的语音参考，可能需要调整温度以增强表达性或更精确地复制语音。

八、验证说话者编码

如果克隆的语音质量不佳，可以使用 interface.decode_and_save_speaker 方法检查编码后的说话者样本。DAC 音频重建模型是有损的，样本存在剪辑、过大的响度或异常的语音特征可能会导致编码问题，影响输出质量。

九、采样配置

为了获得最佳结果，建议使用以下采样设置：

参数	值
Temperature	0.4
Repetition Penalty	1.1
Repetition Range	64
Top - k	40
Top - p	0.9
Min - p	0.05

十、模型规格

上下文长度	支持情况
8,192 tokens	23 + 种语言
8,192 tokens	14 + 种语言

十一、致谢

音频编码和解码使用了 ibm - research/DAC.speech.v1.0。
OuteTTS 以 Qwen3 0.6B 作为基础模型，并进行了持续预训练和微调。
使用的数据集包括多语言 LibriSpeech（MLS）（CC BY 4.0 许可）和 Common Voice Corpus（CC - 0 许可）。

十二、伦理使用指南

预期用途 ：该模型旨在用于合法的应用程序，以增强可访问性、创造力和通信。
禁止使用 ：
- 未经个人明确、知情的同意，冒充个人。
- 制作具有误导性、虚假或欺骗性的内容（例如，出于恶意目的的 “深度伪造”）。
- 生成有害、仇恨、骚扰或诽谤性材料。
- 未经个人事先明确许可，对任何个人进行语音克隆。
- 违反适用的当地、国家或国际法律、法规或版权的任何用途。
责任：用户对其生成的内容以及使用方式负责。鼓励用户仔细考虑合成媒体的潜在影响。

核心技术表格如下：

在这里插入图片描述

http://www.xdnf.cn/news/628903.html

相关文章：

AWTK嵌入式图形框架开发备忘(二)

【GESP真题解析】第 5 集 GESP 二级 2023 年 3 月编程题 2：百鸡问题

【Python】【电网规划】基于经济与可靠性双目标的混合配电系统规划及可靠性评估

ShenNiusModularity项目源码学习（30：ShenNius.Admin.Mvc项目分析-15）

可增添功能的鼠标右键优化工具

【PINN】DeepXDE学习训练营(33)——pinn_forward-fractional_Poisson_1d.py

C++：共享指针unique_ptr的理解与应用

每日定投40刀BTC（17）20250511 - 20250524

什么是数据分析

Go基础语法与控制结构

ROS云课三分钟-破壁篇GCompris-一小部分支持Edu应用列表-2025

海思SVP_NPU开发适配

Python训练营---Day35

哈希表原理与双散列实战指南

超时处理机制设计：从TICK到回调

刷leetcode hot100返航版--贪心5/23

Python性能优化利器：__slots__的深度解析与避坑指南

《2.1.4 C语言中的整数类型及类型转换|精讲篇》

基于netmiko模块实现支持SSH or Telnet的多线程多厂商网络设备自动化巡检脚本

测试总结（一）

虚拟文件(VFS)

RK3588 DRM 介绍及调试记录

keycloak获取用户信息(go实现获取keycloak用户信息)

IEC 60034-30-1标准解析：旋转电机能效分级与全球影响

HarmonyOS介绍

【深度剖析】三一重工的数字化转型（下篇1）

Stream流的中间方法、终结方法与收集方法