对话式AI文本转语音合成软件CSM整合包,Sesame AI Labs多人文字转语音工具
CSM是发布不久的一款多人对话语音生成模型,声音自然延迟低,同时支持克隆音色语音合成,我基于当前最新版本制作了免安装一键启动整合包。
Sesame CSM介绍
CSM(Conversational Speech Model) 是由硅谷团队 Sesame AI Labs 开发的开源语音对话模型,主打高自然度、低延迟的语音交互。其核心目标是解决传统语音合成的“恐怖谷效应”(即语音接近真人但细微不自然引发不适感),通过情感表达和上下文感知生成接近人类对话的语音。
CSM整合包使用教程
首先将网盘内的软件压缩包下载到本地电脑上并解压,双击启动软件.exe启动。
第一次启动会慢些,软件成功启动后会自动打开webui界面。
在Speaker A和Speaker B下拉列表中选择说话发音人。
或是点击【Or add your own voice prompt】展开,上传你自己的音频样本和【Speaker prompt】音频样本文本内容。软件将克隆你上传的音频音色用于语音合成。
【Conversation content】输入对话内容。
每人说一行,轮流交替往下说,第一行文本从Speaker A开始合成
点击下方的【Generate conversation】即可开始生成对话语音。
视频教程及效果演示:
注意事项
英伟达显卡显存不低于6G
目前语音合成语言主要为英语
软件运行路径中不要出现非英文字符及空格,待使用文件也要注意
软件只支持win10或win11,不支持其他版本Windows系统,也不支持手机和MAC
多人对话语音合成CSM一键启动整合包下载链接
夸克网盘分享