当前位置：首页 > news >正文

开源数字人框架 AWESOME-DIGITAL-HUMAN 技术解析与应用指南

news 2025/6/30 20:27:05

一、项目概述

AWESOME-DIGITAL-HUMAN 是一个基于 Live2D 技术的开源数字人框架，它集成了语音识别（ASR）、大语言模型（LLM）、语音合成（TTS）和 Agent 模块化扩展能力，支持快速部署和自定义开发。项目特点包括：超轻量级设计（配置要求低于2核2G）、支持 Docker 快速部署、多平台兼容（PC端和移动端）以及丰富的 Live2D 人物模型扩展能力。

系统架构

项目采用前后端分离的架构设计：

前端：基于 Next.js 构建，负责用户界面展示和 Live2D 模型渲染
后端：提供 ASR、TTS、LLM 等核心服务接口
通信：前后端通过 WebSocket 实现实时交互

二、核心功能模块

1. 语音交互模块

项目集成了百度 ASR 和 TTS 引擎，实现语音与文本的双向转换：

# 百度 ASR 引擎核心代码
@ASREngines.register("BaiduAPI")
class BaiduAPI(BaseEngine): def setup(self):# 获取 API Tokenparams = {'grant_type': 'client_credentials','client_id': self.cfg.AK,'client_secret': self.cfg.SK}response = httpx.post(self.cfg.TOKEN_URL, data=params)self.token = response.json().get("access_token")async def run(self, input: AudioMessage) -> Optional[TextMessage]:# 发送语音数据并获取识别结果params = {'cuid': CUID, 'token': self.token, 'dev_pid': self.cfg.DEV_PID}headers = {'Content-Type': f'audio/{input.format}; rate={input.sampleRate}','Content-Length': str(len(input.data))}resp = await httpxAsyncClient.post(self.cfg.ASR_URL, content=input.data, params=params, headers=headers)return TextMessage(data=resp.json()["result"][0])

2. Live2D 模型渲染

前端使用 Live2D Cubism Web Framework 实现人物模型的渲染和控制，支持表情、动作和口型同步：

// Live2D 眨眼效果实现
public updateParameters(model: CubismModel, deltaTimeSeconds: number): void {this._userTimeSeconds += deltaTimeSeconds;let parameterValue: number;// 根据眨眼状态计算参数值switch (this._blinkingState) {case EyeState.EyeState_Closing:parameterValue = 1.0 - this.calculateProgress(this._closingSeconds);if (this.isStateComplete()) {this._blinkingState = EyeState.EyeState_Closed;}break;// 其他状态处理...}// 更新模型参数for (let i = 0; i < this._parameterIds.getSize(); ++i) {model.setParameterValueById(this._parameterIds.at(i), parameterValue);}}

3. 多模态交互

系统支持文本和语音两种交互方式，并提供流式响应处理：

// 流式聊天处理
public async streamingChat(data: string,callbackProcessing: (index: number, data: string) => void,callbackEnd: (index: number) => void): Promise<void> {try {const reader = await API.agent_infer_streaming_api(data);const decoder = new TextDecoder("utf-8");let index = 0;// 处理流式响应while (true) {const { value, done } = await reader.read(); if (done) {callbackEnd(index);break;}const chunk = decoder.decode(value, { stream: true });callbackProcessing(index, chunk);index++;}} catch (error) {console.error(error);}}

三、部署与开发

1. 快速部署

项目支持 Docker 快速部署，只需执行以下命令：

# 构建并启动容器
docker buildx build --platform linux/amd64,linux/arm64 -t adh-web:latest -f docker/adhWeb.Dockerfile . --push
docker buildx build --platform linux/amd64,linux/arm64 -t adh-api:latest -f docker/adhServer.Dockerfile . --push

2. 开发环境搭建

前端开发环境启动：

# 启动前端开发服务器
pnpm dev
# 访问 http://localhost:3000

3. 自定义扩展

项目提供了模块化扩展接口，可以方便地集成新的 ASR、TTS 或 LLM 服务：

# 自定义 TTS 引擎示例
@TTSEngines.register("CustomTTS")
class CustomTTS(BaseEngine):async def run(self, input: TextMessage) -> Optional[AudioMessage]:# 实现自定义 TTS 逻辑audio_data = self.custom_tts_service(input.data)return AudioMessage(data=audio_data,format="wav",sampleRate=16000,sampleWidth=2,)

四、应用场景与案例

1. 智能客服

利用项目的多模态交互能力和 LLM 集成，可以快速搭建智能客服系统，支持语音和文本咨询。

2. 教育领域

可用于开发虚拟教师或学习助手，提供个性化学习体验。

3. 直播助手

支持创建虚拟主播，实现自动语音播报和互动。

五、项目贡献与社区

项目采用 MIT 开源许可证，欢迎社区贡献。贡献方式包括：提交问题报告、提交代码补丁、参与文档编写等。

# Cubism Web Framework 贡献指南
プロジェクトに貢献する方法はたくさんあります。バグのログの記録、このGitHubでのプルリクエストの送信、Live2Dコミュニティでの問題の報告と提案の作成です。

六、总结与展望

AWESOME-DIGITAL-HUMAN 为开发者提供了一个功能完备、易于扩展的数字人框架，无论是个人开发者还是企业团队，都可以基于此框架快速构建自己的数字人应用。未来，项目计划进一步优化性能、增加更多的交互功能和模型支持，推动数字人技术的普及和应用。

查看全文

http://www.xdnf.cn/news/363043.html

【Ansible】模块详解

切比雪夫不等式专题习题解析

国联股份卫多多与北京经纬智诚签署战略合作协议

使用Python和TensorFlow实现图像分类的人工智能应用

计算人声录音后电平的大小(dB SPL-＞dBFS)

Leetcode刷题由浅入深之字符串——541. 反转字符串Ⅱ

Spring中除DI之外获取 BEAN 的方式

数据结构每日一题day18（链表）★★★★★

在自然语言处理任务中，像 BERT 这样的模型会在输入前自动加上一些特殊token

MCP（Model Context Protocol）是专为LLM（大语言模型）应用设计的标准化协议

CKESC STONE 200A-M 工业级电调技术测评：全场景适配的动力控制核心

【谭浩强】第七章第14题

【C语言】--指针超详解(三)

Qwen智能体qwen_agent与Assistant功能初探

昆仑万维一季度营收增长46% AI业务成新增长点

epoch、batch size和steps_per_epoch的区别

Linux 大于2T磁盘分区

FPGA 41 ，ICMP 协议详细解析之构建网络诊断系统（ ICMP 协议与 IP 协议理论详细解析）

windows下，docker虚拟化使用nginx镜像部署vue3+vite项目

数据库基础：概念、原理与实战示例

多账号管理与自动化中的浏览器指纹对抗方案

北斗导航｜ RTKLib中重难点技术，公式，代码

【质量管理】TRIZ因果链分析：解码质量问题的“多米诺效应“

20250509——TOPSIS计算各方案得分

怎么判断是不是公网IP？如何查看自己本地路由器是内网ip还是公网？

Lightweight App Alternatives

gpu硬件,gpu驱动,cuda,CUDA Toolkit,cudatoolkit,cudnn,nvcc概念解析

python---kafka常规使用

awesome-digital-human本地部署及配置：打造高情绪价值互动指南

Conda激活环境无效