当前位置：首页 > ai >正文

对话式AI文本转语音合成软件CSM整合包，Sesame AI Labs多人文字转语音工具

ai 2025/6/27 23:12:00

CSM是发布不久的一款多人对话语音生成模型，声音自然延迟低，同时支持克隆音色语音合成，我基于当前最新版本制作了免安装一键启动整合包。

Sesame CSM介绍

CSM（Conversational Speech Model）是由硅谷团队 Sesame AI Labs 开发的开源语音对话模型，主打高自然度、低延迟的语音交互。其核心目标是解决传统语音合成的“恐怖谷效应”（即语音接近真人但细微不自然引发不适感），通过情感表达和上下文感知生成接近人类对话的语音。

CSM整合包使用教程

首先将网盘内的软件压缩包下载到本地电脑上并解压，双击启动软件.exe启动。

第一次启动会慢些，软件成功启动后会自动打开webui界面。

在Speaker A和Speaker B下拉列表中选择说话发音人。

或是点击【Or add your own voice prompt】展开，上传你自己的音频样本和【Speaker prompt】音频样本文本内容。软件将克隆你上传的音频音色用于语音合成。

【Conversation content】输入对话内容。

每人说一行，轮流交替往下说，第一行文本从Speaker A开始合成

点击下方的【Generate conversation】即可开始生成对话语音。

视频教程及效果演示：

注意事项

英伟达显卡显存不低于6G

目前语音合成语言主要为英语

软件运行路径中不要出现非英文字符及空格，待使用文件也要注意

软件只支持win10或win11，不支持其他版本Windows系统，也不支持手机和MAC

多人对话语音合成CSM一键启动整合包下载链接

夸克网盘分享

查看全文

http://www.xdnf.cn/news/12224.html

CUDA安装与多版本管理

算法训练第九天

无法下载CUDA，下载界面链接打开异常

永磁同步电机无感观测器与在线参数识别分别是什么，区别与联系是什么

[科研理论]机器人路径规划算法总结及fast_planner经典算法解读

Python6.5打卡（day37）

HSL颜色控制及使用示例（Hue-Saturation-Lightness）

整合swagger，以及Knife4j优化界面

【机械视觉】Halcon—【七、blob阈值分割】

nginx 同时支持ipv4与ipv6 配置

SLG游戏分析

Seata 分布式事务 AT 模式

IP如何挑？2025年海外专线IP如何购买？

python打卡day45@浙大疏锦行

Vehicle HAL(5)--vhal 实现设置属性的流程

Silicon EFR32xG22 错误问题和解决办法汇总

Linux目录结构

ROS2里面与话题 /move_base_simple/goal 和 /move_base/status 相对应的话题名字及其含义

整理几个概念：DCU DTK HIP hipcc ROCm LLVM Triton MIGraphX 怎么增加GStreamer插件

可穿戴设备：健康监测的未来之眼

2025年阿里最新软件测试面试题：Web 测试+接口测试+App 测试

DAY 22 复习日

获取第三方图片接口文件流并保存服务器

8天Python从入门到精通【itheima】-71~72（数据容器“序列”+案例练习）

串：BF算法（朴素的魔术匹配算法）

【深度学习-Day 23】框架实战：模型训练与评估核心环节详解 (MNIST实战)

MQTTX连接移动云的例子

JMeter 实现 MQTT 协议压力测试！

云服务器Xshell登录拒绝访问排查

使用 Deleaker 精准定位内存与 GDI 资源泄漏

Sesame CSM介绍

CSM整合包使用教程

注意事项

多人对话语音合成CSM一键启动整合包下载链接

相关文章：