THUNDER:用“听回去”的方式让数字人说话更像真人
在虚拟数字人和AI交互日益普及的今天,如何让数字人的面部动作更加自然、真实,尤其是嘴型与语音高度同步,成为提升用户体验的关键。而来自马克斯·普朗克智能系统研究所(MPI-IS)的研究团队提出了一种全新思路 —— THUNDER,它不仅能根据语音生成高质量的3D面部动画,还能通过“听回去”机制不断自我校正,显著提升口型准确性。
一句话理解 THUNDER
传统方法是让数字人“听音频动嘴”,而 THUNDER 是让它“看嘴型反推音频”,再用这个音频来判断嘴型动得对不对,从而反过来提升口型准确度!
为什么这项技术很重要?
✅ 自动生成逼真口型动画
只需输入一段语音,THUNDER 即可自动生成自然流畅、情感丰富的3D面部动画。适用于虚拟主播、AI讲解员、数字替身等各类数字人应用场景。
✅ 提升口型同步精度
不同于以往模型只关注“嘴巴有没有动”,THUNDER 更注重“嘴巴动得对不对”。它通过重建语音并比对原始语音的方式,实时检测并纠正