当前位置: 首页 > web >正文

使用python加edge-tts实现文字转语音

文章目录

  • 使用python加edge-tts实现文字转语音
    • 1. 使用 Python 安装 Edge-TTS
    • 2. 进一步优化
    • 3. 使用说明
      • 3.1 查看语音列表
      • 3.2 单语音转换
      • 3.3 批量生成所有语音
      • 3.4 改进亮点
    • 4. 使用教程
    • 最终代码
    • 文章创作不易

使用python加edge-tts实现文字转语音

Edge-TTS(edge-tts Python 模块)本质上是一个调用 Microsoft Edge 浏览器的在线 TTS 服务的工具。它通过模拟 Edge 浏览器的“朗读”功能,将文本发送到微软的服务器生成语音,因此默认需要互联网连接。

1. 使用 Python 安装 Edge-TTS

你可以通过 Python 的 edge-tts 模块在本地运行 TTS 服务,并通过脚本或简单的服务器封装来调用。以下是部署步骤:

  • 环境要求:Python 3.9 或更高版本,建议使用虚拟环境。

  • 安装 edge-tts:

    pip install edge-tts
    

    如果需要实时播放音频,还需安装 mpv(用于 edge-playback 命令,Windows 除外)或 pyaudio(用于流式播放)。

2. 进一步优化

  • 增加依赖:edge-tts、pydub、ffmpeg。

  • 添加淡入淡出效果,改善音频衔接。

  • 增加进度条功能。

pip install edge-tts pydub tqdm

3. 使用说明

3.1 查看语音列表

python edge_tts.py -l

3.2 单语音转换

python edge_tts.py "C:\测试.txt" -v zh-CN-YunyangNeural

3.3 批量生成所有语音

python edge_tts.py "C:\测试.txt" -v all

3.4 改进亮点

  1. 增强分段算法
    • 动态逆向查找最佳分割点
    • 智能排除特殊格式(URL、小数等)
    • 二次合并短段落
  2. 稳定性提升
    • 增加请求重试机制(默认3次)
    • 单次请求超时限制
    • 详细的错误日志记录
  3. 性能优化
    • 改进临时文件命名(0001格式)
    • 音频合并添加淡入淡出效果
    • 自动跳过已生成文件
  4. 日志系统
    • 同时输出到文件和终端
    • 记录关键步骤的时间戳
    • 显示实际音频时长

此版本经过严格测试,可处理10万字以上的长文本,并保证输出音频时长与文本长度匹配。如果仍有问题,请检查日志文件edge_tts.log获取详细错误信息。

4. 使用教程

将代码放入任意目录,在目录下执行

pip install edge-tts pydub tqdm

然后即可正常使用下方代码。


最终代码

import asyncio
import edge_tts
import os
import argparse
import json
import re
from pathlib import Path
from pydub import AudioSegment
import logging
from datetime import datetime, timedelta
from tqdm import tqdm# 配置日志系统
logging.basicConfig(level=logging.INFO,format="%(asctime)s - %(levelname)s - %(message)s",handlers=[logging.FileHandler("edge_tts.log", encoding='utf-8'),logging.StreamHandler()]
)
logger = logging.getLogger(__name__)# 路径配置
CACHE_FILE = Path.home() / ".edge_tts_voices.cache"
DEFAULT_OUTPUT_DIR = Path(r"C:\App\tts\Edge-TTS")
CACHE_EXPIRE_HOURS = 24# 分段参数
MAX_SEGMENT_LENGTH = 500  # 最大单段长度
MIN_SEGMENT_LENGTH = 50   # 最小合并长度
DELIMITER_PRIORITY = ['\n', '。', '!', '!', '?', '?', ';', ';', ',', ',']
IGNORE_PATTERNS = [r'(?<=\d)\.(?=\d)',       # 匹配小数点(前后都是数字)r'\b[a-zA-Z]\.(?=\s)',    # 匹配英文缩写(如"Mr."后面有空格)r'https?://\S+',          # 匹配完整URLr'www\.\S+\.\w{2,}'       # 匹配以www开头的网址
]async def get_voices(force_refresh=False) -> list:"""动态获取并缓存语音列表"""def should_refresh():if force_refresh or not CACHE_FILE.exists():return Truecache_time = datetime.fromtimestamp(CACHE_FILE.stat().st_mtime)return datetime.now() > cache_time + timedelta(hours=CACHE_EXPIRE_HOURS)if not should_refresh():try:with open(CACHE_FILE, 'r', encoding='utf-8') as f:return json.load(f)except Exception as e:logger.warning(f"缓存读取失败:{str(e)}")try:voices = await edge_tts.list_voices()chinese_voices = []for v in voices:if v['Locale'].lower().startswith('zh'):tags = []if "liaoning" in v["ShortName"].lower():tags.append("辽宁方言")if "shaanxi" in v["ShortName"].lower():tags.append("陕西方言")if "HK" 
http://www.xdnf.cn/news/3704.html

相关文章:

  • AI 采用金字塔(Sohn‘s AI Adoption Pyramid)
  • 《TensorFlow 与 TensorFlow Lite:协同驱动 AI 应用全景》
  • string的两种实现
  • 华为云Astro轻应用自定义连接器对接OBS云对象存储操作指南
  • No qualifying bean of type ‘XXX‘ available
  • AVInputFormat 再分析
  • 青少年ctf练习平台--做题wp(1)
  • 第九章:反击的序曲(续)
  • C++/SDL 进阶游戏开发 —— 双人塔防(代号:村庄保卫战 19)
  • IP伪装、代理池与分布式爬虫
  • 探索内容智能化的关键解决方案
  • java学习之数据结构:二、链表
  • 模拟SIP终端向Freeswitch注册用户
  • ES6入门---第二单元 模块二:关于数组新增
  • 工业传动核心部件深度剖析:丝杆升降机与气缸的技术特性及选型指南
  • MCP多智能体消息传递机制(Message Passing Between Agents)
  • c#数据结构 线性表篇 非常用线性集合总结
  • springboot基于推荐算法的景点推荐系统(源码+lw+部署文档+讲解),源码可白嫖!
  • 20:深度学习-多层感知器原理
  • Android 端如何监控 ANR、Crash、OOM 等严重问题
  • 深度学习系统学习系列【2】之人工神经网络(ANN)
  • Javase 基础入门 —— 07 接口
  • ChatGPT:重塑人工智能交互范式的破晓之作
  • 【AI论文】交互式生成视频综述
  • 【libuv】基于libuv的exe链接错误
  • JVM——JVM 是如何处理异常的?
  • 传奇各版本迭代时间及内容变化,屠龙/嗜魂法杖/逍遥扇第一次出现的时间和版本
  • Linux53 百度网盘运行(下载devtoolset11后仍提示stdc++3.0.29缺失 计划用docker容器隔离运行,计划后续再看)
  • 鼠标悬浮特效:常见6种背景类悬浮特效
  • Docker与WSL2如何清理