当前位置: 首页 > ai >正文

对话式AI文本转语音合成软件CSM整合包,Sesame AI Labs多人文字转语音工具

CSM是发布不久的一款多人对话语音生成模型,声音自然延迟低,同时支持克隆音色语音合成,我基于当前最新版本制作了免安装一键启动整合包。

Sesame CSM介绍

CSM(Conversational Speech Model) 是由硅谷团队 Sesame AI Labs 开发的开源语音对话模型,主打高自然度、低延迟的语音交互。其核心目标是解决传统语音合成的“恐怖谷效应”(即语音接近真人但细微不自然引发不适感),通过情感表达和上下文感知生成接近人类对话的语音。

CSM整合包使用教程

首先将网盘内的软件压缩包下载到本地电脑上并解压,双击启动软件.exe启动。

第一次启动会慢些,软件成功启动后会自动打开webui界面。

在Speaker A和Speaker B下拉列表中选择说话发音人。

或是点击【Or add your own voice prompt】展开,上传你自己的音频样本和【Speaker prompt】音频样本文本内容。软件将克隆你上传的音频音色用于语音合成。

【Conversation content】输入对话内容。

每人说一行,轮流交替往下说,第一行文本从Speaker A开始合成

点击下方的【Generate conversation】即可开始生成对话语音。

视频教程及效果演示:

注意事项

英伟达显卡显存不低于6G

目前语音合成语言主要为英语

软件运行路径中不要出现非英文字符及空格,待使用文件也要注意

软件只支持win10或win11,不支持其他版本Windows系统,也不支持手机和MAC

多人对话语音合成CSM一键启动整合包下载链接

夸克网盘分享

http://www.xdnf.cn/news/12224.html

相关文章:

  • CUDA安装与多版本管理
  • 算法训练第九天
  • 无法下载CUDA,下载界面链接打开异常
  • 永磁同步电机无感观测器与在线参数识别分别是什么,区别与联系是什么
  • [科研理论]机器人路径规划算法总结及fast_planner经典算法解读
  • Python6.5打卡(day37)
  • HSL颜色控制及使用示例(Hue-Saturation-Lightness)
  • 整合swagger,以及Knife4j优化界面
  • 【机械视觉】Halcon—【七、blob阈值分割】
  • nginx 同时支持ipv4与ipv6 配置
  • SLG游戏分析
  • Seata 分布式事务 AT 模式
  • IP如何挑?2025年海外专线IP如何购买?
  • python打卡day45@浙大疏锦行
  • Vehicle HAL(5)--vhal 实现设置属性的流程
  • Silicon EFR32xG22 错误问题和解决办法汇总
  • Linux目录结构
  • ROS2里面与话题 /move_base_simple/goal 和 /move_base/status 相对应的话题名字及其含义
  • 整理几个概念:DCU DTK HIP hipcc ROCm LLVM Triton MIGraphX 怎么增加GStreamer插件
  • 可穿戴设备:健康监测的未来之眼
  • 2025年阿里最新软件测试面试题:Web 测试+接口测试+App 测试
  • DAY 22 复习日
  • 获取第三方图片接口文件流并保存服务器
  • 8天Python从入门到精通【itheima】-71~72(数据容器“序列”+案例练习)
  • 串:BF算法(朴素的魔术匹配算法)
  • 【深度学习-Day 23】框架实战:模型训练与评估核心环节详解 (MNIST实战)
  • MQTTX连接移动云的例子
  • JMeter 实现 MQTT 协议压力测试 !
  • 云服务器Xshell登录拒绝访问排查
  • 使用 Deleaker 精准定位内存与 GDI 资源泄漏