当前位置：首页 > ai >正文

maitrix-org/Voila-chat：端到端音频聊天模型

ai 2025/8/30 12:14:50

一、引言

Voila 是一种新型的大型语音 - 语言基础模型家族，旨在将人与 AI 的交互体验提升到新高度。它打破了传统语音 AI 系统高延迟、丢失语音细微差别以及机械回应等限制，采用创新的端到端模型设计和新颖的分层 Transformer 架构，实现低至 195 毫秒的延迟（超越平均人类反应时间），为各种音频任务（从语音识别到文本转换语音再到跨六种语言的语音翻译）提供了高效的解决方案。

二、模型亮点

高保真、低延迟、实时流音频处理 ：Voila 能够实现实时、自主且丰富的语音交互，其低延迟特性确保了交互的流畅性，提升了用户体验。
语音与语言建模能力的有效整合 ：通过结合先进的语音和语言建模技术，Voila 能够提供定制化、以角色驱动的互动，满足不同用户的需求和偏好。
丰富的预建和定制语音资源 ：拥有数百万种预建和可定制的语音选择，支持在对话过程中快速切换语音，为用户提供了多样化的语音表达方式。
统一的多任务音频模型 ：Voila 作为一个统一的模型，能够处理多种音频任务，简化了模型的部署和使用，提高了资源利用效率。

三、模型描述与版本

Voila-base ：基础模型，提供了基本的语音 - 语言处理能力，是其他进阶模型的构建基础，下载链接为https://huggingface.co/maitrix-org/Voila-base。
Voila-Chat ：端到端音频聊天模型，专注于实时的语音交互，能够理解语音输入并生成自然、恰当的语音回应，下载链接为https://huggingface.co/maitrix-org/Voila-chat。
Voila-Autonomous（预览版） ：全双工音频聊天模型，支持更复杂的交互模式，允许用户和 AI 在同一时间进行语音交流，提高交互的自然度，下载链接为https://huggingface.co/maitrix-org/Voila - autonomous - preview。
Voila-Audio - alpha ：为大型语言模型（LLM）提供原始音频输入能力，使模型能够直接处理未经处理的音频数据，拓展了模型的应用场景，下载链接为https://huggingface.co/maitrix-org/Voila - audio - alpha。
Voila - Tokenizer ：音频分词器，用于将音频数据进行分词处理，以便模型更好地理解和生成语音，下载链接为https://huggingface.co/maitrix-org/Voila - Tokenizer。

四、使用方法

文本聊天 ：通过运行 python infer.py，并指定模型名称、指令和输入文本，即可进行文本聊天。例如：
- # Text chat python infer.py \ --model-name ${model_name} \ --instruction "" \ --input-text "Hello" \ --task-type chat_tito
语音聊天 ：同样使用 python infer.py，但需要指定输入音频文件，进行语音聊天。例如：
- # Voice chat python infer.py \ --model-name ${model_name} \ --instruction "" \ --input-audio "examples/test1.mp3" \ --task-type chat_aiao
自主模式 ：对于全双工音频聊天，使用以下命令启动自主模式：
- # Autonomous mode python infer.py \ --model-name "maitrix-org/Voila-autonomous-preview" \ --instruction "" \ --input-audio "examples/test_autonomous1.mp3" \ --task-type chat_aiao_auto
Gradio 演示 ：运行 python gradio_demo.py 可启动 Gradio 演示界面，方便用户进行交互式体验。

五、数据集

Voila Benchmark ：这是一个新的语音评估基准测试，通过从五个广泛使用的语言模型评估数据集（MMLU、MATH、OpenAI HumanEval、NQ - Open 和 GSM8k）中采样构建而成。它用于评估模型在不同领域的性能，Voila 在该基准测试中的得分为 30.56，超过了 SpeechGPT 和 Moshi。下载链接为https://huggingface.co/datasets/maitrix-org/Voila - Benchmark。
Voila Voice Library ：提供了数百万种预建和可定制的语音资源，为模型的语音生成和转换任务提供了丰富的素材。下载链接为https://huggingface.co/datasets/maitrix-org/Voila - million - voice。

六、基准测试与性能评估

Voila Benchmark ：Voila 在该基准测试中的表现优于其他模型，其 30.56 的高分体现了其在多领域语音任务中强大的处理能力和广泛的应用潜力。
语音识别（ASR）评估 ：在 LibriSpeech test - clean 数据集上，Voila 未使用 LibriSpeech 训练数据时的词错误率（WER）为 4.8%，低于 Moshi 的 5.7%；当使用 LibriSpeech 训练数据时，Voila 的 WER 进一步降低至 2.7%，与 Whisper large v2 等先进模型持平，展现了其在语音识别任务中的高效性和准确性。
文本转换语音（TTS）评估 ：遵循 Vall - E 提出的评估指标，Voila 在未使用 LibriSpeech 训练数据时的 WER 为 3.2%，使用训练数据时为 2.8%，均优于 YourTTS、Vall - E 和 Moshi 等模型，表明其在语音生成方面具有较高的质量和自然度。