ASR VAD TTS
自动语音识别(Automatic Speech Recognition, ASR)是一种将人类语音实时转换为文本的技术,广泛应用于语音助手、实时字幕、客服机器人等场景。
语音活动检测(Voice Activity Detection, VAD)是识别音频流中人声片段与静音/噪声片段的关键技术,广泛应用于语音通信、ASR预处理、录音分析等领域。
VAD效果严重依赖音频质量(建议输入16kHz/16bit PCM),实际部署前需用真实场景数据测试。
文本转语音(Text-to-Speech, TTS)
Volcano(火山引擎)
LLM(Large Language Model,大语言模型)