当前位置：首页 > news >正文

ASR VAD TTS

news 2025/8/28 13:16:23

自动语音识别（Automatic Speech Recognition, ASR）是一种将人类语音实时转换为文本的技术，广泛应用于语音助手、实时字幕、客服机器人等场景。

语音活动检测（Voice Activity Detection, VAD）是识别音频流中人声片段与静音/噪声片段的关键技术，广泛应用于语音通信、ASR预处理、录音分析等领域。

VAD效果严重依赖音频质量（建议输入16kHz/16bit PCM），实际部署前需用真实场景数据测试。

文本转语音（Text-to-Speech, TTS）

Volcano（火山引擎）

LLM（Large Language Model，大语言模型）

http://www.xdnf.cn/news/129187.html

相关文章：

VLA 论文精读（十八）π0.5: a Vision-Language-Action Model with Open-World Generalization

JavaFX 第三篇 HostServices和Platform

交通运输行业综合智慧监管平台：商贸物流的安全与效率引擎

Windows下QT打包后程序运行后弹出CMD命令窗口的问题解决方法

vxe-table封装表头

MSHFlexGrid 控件网格赋值指南方案

Python爬虫实战：移动端逆向工具Fiddler经典案例

24FIC 决赛计算机部分

【HFP】蓝牙语音通话控制深度解析：来电拒接与通话终止协议

【前端】【业务场景】【面试】在前端开发中，如何优化 SVG（可缩放矢量图形）的性能，特别是在处理复杂图形和动画时

MCP实战-本地MCP Server+Cursor实践

AI日报 - 2025年04月25日

C语言-函数-1

入门-C编程基础部分：19、输入输出

位带和位带别名区

python自动化学习六：断言

【Linux系统篇】：什么是信号以及信号是如何产生的---从基础到应用的全面解析

redis相关问题整理

2024年ASOC SCI1区TOP：改进灰狼算法IGWO+股票指数收益预测，深度解析+性能实测

传感器测量（图片流程）

ECharts学习之 toolbox 工具栏

大模型数据预处理方法总结

旋转磁体产生的场-对导航姿态的影响

数据库--回表

Spring Security基础入门

电子处方模块开发避坑指南：从互联网医院系统源码实践出发

vuex持久化vuex-persistedstate，存储的数据刷新页面后导致数据丢失

【解决】Android Gradle Sync 报错 Could not read workspace metadata

【C/C++】深入理解指针(四)

MuJoCo 机械臂 PPO 强化学习逆向运动学（IK）