当前位置: 首页 > web >正文

Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术、支持中英文自定义编辑- 基于 C# 语言开发

Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术 C# 语言开发


该系列主要介绍怎么制作AI桌面宠物的流程,我会从项目开始创建初期到最终可以和AI宠物进行交互为止,项目已经开发完成,我会仔细梳理一下流程,分步讲解。 这篇文章主要讲关于人物模型 语音口型同步技术。


提示:内容纯个人编写,欢迎评论点赞,来指正我。

文章目录

  • Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术 C# 语言开发
  • 前言
  • 一、语音口型同步LipSync技术概述
          • ①技术原理
          • ②实现方法
          • ③应用场景
          • ④技术挑战
  • 二、Unity开发准备阶段
    • 1.Unity平台
    • 2.插件:下载地址
    • 3.示例:中文
  • 三、uLipSync使用方法
    • 1. 模型重构
    • 2. 导入插件
    • 3. 添加LipSync组件
    • 4. 组件使用详解
          • 1. uLipsyncBlendShape 组件
          • 2. uLipsync 组件
          • 2. MFCC 技术
          • 3. MFCC 频谱中文数据提供
          • 4. 运行查看效果,人物口型和声音同步,并实时变化,中英文的训练是一样的。
    • 然后就,大功告成了!!!
  • 四. 完结
  • 总结


前言

本篇内容主要讲Unity开发桌面宠物的大模型交互功能,大家感兴趣也可以了解一下这个开发方向,目前还是挺有前景的。

下面让我们出发吧 ------------>----------------->


一、语音口型同步LipSync技术概述

人物语音口型同步(Lip Sync)是一种技术,用于确保动画或虚拟人物的口型与配音或语音内容精确匹配。这种技术广泛应用于动画电影、视频游戏、虚拟现实、增强现实以及实时视频会议等领域,以增强角色的真实感和沉浸感。

①技术原理

人物语音口型同步通常通过分析语音信号的音素(Phoneme)来实现。音素是语言中最小的语音单位,每个音素对应特定的口型。系统通过语音识别技术将语音分解为音素序列,然后根据音素驱动角色的面部模型,生成相应的口型动画。

②实现方法

基于规则的方法:通过预定义的规则将音素映射到特定的口型。这种方法需要手动调整每个音素对应的口型,适用于简单的场景,但缺乏灵活性。

基于机器学习的方法:利用深度学习模型(如卷积神经网络或循环神经网络)自动学习语音与口型之间的映射关系。这种方法可以处理更复杂的语音和口型变化,适用于高质量的口型同步需求。

实时口型同步:在实时应用中(如视频会议或虚拟主播),系统需要快速处理语音并生成相应的口型动画。这通常需要高效的算法和硬件支持,以确保低延迟和高精度。

③应用场景

动画制作:在动画电影和电视剧中,人物语音口型同步用于确保角色的口型与配音完美匹配,提升观众的观影体验。

游戏开发:在视频游戏中,口型同步技术用于增强角色的互动性和真实感,使玩家更沉浸于游戏世界。

虚拟现实和增强现实:在VR和AR应用中,口型同步技术用于创建逼真的虚拟人物,提升用户的沉浸感。

实时视频会议:在视频会议中,口型同步技术可以用于虚拟形象或增强现实效果,使远程沟通更加自然和生动。

④技术挑战

多语言支持:不同语言的音素和口型差异较大,需要针对每种语言进行优化。

情感表达:除了口型,面部表情和情感表达也是重要因素,需要综合处理。

实时性:在实时应用中,系统需要在极短的时间内完成语音分析和口型生成,对算法和硬件性能要求较高。

人物语音口型同步技术的发展不断推动着动画、游戏和虚拟现实等领域的进步,为用户带来更加真实和沉浸的体验。
在这里插入图片描述

二、Unity开发准备阶段

1.Unity平台

  • 该系列全部使用Unity2021.3.44开发;
  • 该系列前后文章存在关联,不懂的可以看前面文章;
  • 该系列完成之后我会上传源码工程,着急的小伙伴可以自己写框架,我就先编写各模块的独立功能。

2.插件:下载地址

  • uLipSync For Unity

3.示例:中文

  • 元音
    a:发音时,口张大,舌尖抵住下齿背,舌面中部稍微隆起,声带振动。如“啊”。
    o:发音时,口半开,舌尖抵住下齿背,舌面后部隆起,声带振动。如“哦”。
    e:发音时,口半开,舌尖抵住下齿背,舌面后部稍微隆起,声带振动。如“鹅”。
    i:发音时,口微开,舌尖抵住下齿背,舌面前部隆起,声带振动。如“衣”。
    u:发音时,口微开,舌尖抵住下齿背,舌面后部隆起,声带振动。如“乌”。
    ü:发音时,口微开,舌尖抵住下齿背,舌面前部隆起,声带振动。如“迂”。
  • 辅音
    b:发音时,双唇紧闭,然后突然张开,气流冲出,声带不振动。如“玻”。
    p:发音时,双唇紧闭,然后突然张开,气流冲出,声带不振动。如“坡”。
    m:发音时,双唇紧闭,气流从鼻腔流出,声带振动。如“摸”。
    f:发音时,上齿和下唇接触,气流从唇齿间摩擦而出,声带不振动。如“佛”。
    d:发音时,舌尖抵住上齿龈,气流冲出,声带不振动。如“的”。
    t:发音时,舌尖抵住上齿龈,气流冲出,声带不振动。如“特”。
    n:发音时,舌尖抵住上齿龈,气流从鼻腔流出,声带振动。如“呢”。
    l:发音时,舌尖抵住上齿龈,气流从舌两侧流出,声带振动。如“勒”。
    g:发音时,舌根抵住软腭,气流冲出,声带振动。如“哥”。
    k:发音时,舌根抵住软腭,气流冲出,声带不振动。如“科”。
    h:发音时,舌根靠近软腭,气流从舌根和软腭之间摩擦而出,声带不振动。如“喝”。
    j:发音时,舌面前部抵住硬腭,气流从舌面和硬腭之间摩擦而出,声带不振动。如“基”。
    q:发音时,舌面前部抵住硬腭,气流从舌面和硬腭之间摩擦而出,声带不振动。如“七”。
    x:发音时,舌面前部靠近硬腭,气流从舌面和硬腭之间摩擦而出,声带不振动。如“希”。
    zh:发音时,舌尖抵住硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带不振动。如“知”。
    ch:发音时,舌尖抵住硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带不振动。如“吃”。
    sh:发音时,舌尖靠近硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带不振动。如“诗”。
    r:发音时,舌尖靠近硬腭前部,气流从舌尖和硬腭之间摩擦而出,声带振动。如“日”。
    z:发音时,舌尖抵住上齿龈,气流从舌尖和上齿龈之间摩擦而出,声带不振动。如“资”。
    c:发音时,舌尖抵住上齿龈,气流从舌尖和上齿龈之间摩擦而出,声带不振动。如“雌”。
    s:发音时,舌尖靠近上齿龈,气流从舌尖和上齿龈之间摩擦而出,声带不振动。如“思”。
  • 复韵母
    ai:发音时,先发“a”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“i”滑动,声音由低到高。如“爱”。
    ei:发音时,先发“e”,然后舌尖抵住上齿龈,舌面前部稍微隆起,向“i”滑动,声音由低到高。如“飞”。
    ui:发音时,先发“u”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“i”滑动,声音由低到高。如“归”。
    ao:发音时,先发“a”,然后舌尖抵住下齿背,舌面后部稍微隆起,向“o”滑动,声音由低到高。如“高”。
    ou:发音时,先发“o”,然后舌尖抵住下齿背,舌面后部稍微隆起,向“u”滑动,声音由低到高。如“狗”。
    iu:发音时,先发“i”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“u”滑动,声音由低到高。如“游”。
    ie:发音时,先发“i”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“e”滑动,声音由低到高。如“爷”。
    üe:发音时,先发“ü”,然后舌尖抵住下齿背,舌面前部稍微隆起,向“e”滑动,声音由低到高。如“月”。
    er:发音时,舌尖卷起,抵住硬腭,舌面中部稍微隆起,发出“er”的音。如“儿”。
  • 鼻韵母
    an:发音时,先发“a”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“安”。
    en:发音时,先发“e”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“恩”。
    in:发音时,先发“i”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“因”。
    un:发音时,先发“u”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“温”。
    ün:发音时,先发“ü”,然后舌尖抵住上齿龈,舌面中部稍微隆起,发出“n”的音。如“云”。
    ang:发音时,先发“a”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“昂”。
    eng:发音时,先发“e”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“灯”。
    ing:发音时,先发“i”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“丁”。
    ong:发音时,先发“o”,然后舌尖抵住上齿龈,舌面后部稍微隆起,发出“ng”的音。如“红”

  • 上述操作很简单
  • 重点来了

三、uLipSync使用方法

1. 模型重构

  • 重构模型 BlendShape组件
    在这里插入图片描述
  • 中文加入以下组件:
    在这里插入图片描述
  • 英文加入以下组件:

在这里插入图片描述

  • 以上组件均为美工制作模型时添加,后续要用到,也可以用基础自带的52个BlendShape组件,只不过效果不是很好。

2. 导入插件

在这里插入图片描述

在这里插入图片描述

  • 导入成功

3. 添加LipSync组件

在这里插入图片描述

  • 在模型根节点添加这两个组件。

4. 组件使用详解

1. uLipsyncBlendShape 组件

在这里插入图片描述

  • ① 选择你的模型上带有BlendShape组件的物体
  • ② 调节口型变化的平滑度和最大最小值,根据需求自行调节
  • ③ BlendShape全部组件的值大小,默认是100,根据需求调整幅度
  • ④ 绑定你的美术资源上添加的BlendShape组件对应的某个音素,并自己命名区分
2. uLipsync 组件

在这里插入图片描述

  • ① 选择你的声音来源,新建个AudioSource拖进来
  • ② 选择当前物体,并选择OnLipSyncUpdate方法,表示实时运行检测
  • ③ 可以自己导入保存好的数据,也可以新建,接下来重点讲MFCC
  • ④ 调整数据大小和采样率的,默认我这种就可以
  • ⑤ 可以将数据保存到本地,其他资源可以直接使用,也可以导入其他数据
2. MFCC 技术

在这里插入图片描述

  • ① 填入上个阶段自己命名的音节,
  • ② 录制的频谱

那么怎么录制频谱呢?

  • ① 首先网上找到 a、o、e、i、u、v等音素的读音片段,可以是mp4或者其他格式都行,我是在汉语拼音网上找的,读音种类的数据越多越精准。
  • ② 导入到Unity中

接下来就是录制了!

  • ① 首先运行Unity ,你会发现多了个按钮 Calib
  • ② 第二步,在音频组件上播放一个音素,循环播放
    在这里插入图片描述
  • ③ 第三步,点击Calib 按钮,长按两三秒,看到MFCC上有稳定均匀的频谱写入就代表成功了。
  • ④ 第四步,重复前面的操作,将所有音素依次录入
  • ⑤ 可以点击保存,下次可以直接使用
3. MFCC 频谱中文数据提供

下面是我本人训练的MFCC数据的Json文件可以导入直接用:

在这里插入图片描述
训练不好的小伙伴私我,这个文件数据太大,不知道以什么格式可以上传。

4. 运行查看效果,人物口型和声音同步,并实时变化,中英文的训练是一样的。

然后就,大功告成了!!!

  • 该系列基本功能差不多就完成了,就完结了,接下来我会将这些功能搭一下框架,或者把其他平台的接入也展示出来。后续看计划~

四. 完结

  • 大家可以从第一节开始学习,完整流程基本已经实现,现在可以实现对话了。
  • 下一期更新暂定:
    ① 更新框架
    ② 其他平台的功能接入
    二选一哦!
  • 评论告诉我,下一期更新什么

在这里插入图片描述
比心啦 ❥(^_-)

在这里插入图片描述

总结

  • 提示: 大家根据需求来做功能,后续继续其他功能啦,不懂的快喊我。
  • 大家可以在评论区讨论其他系列下一期出什么内容,这个系列会继续更新的
  • 点赞收藏加关注哦~ 蟹蟹
http://www.xdnf.cn/news/6449.html

相关文章:

  • 如何安全配置好CDN用于防止DDoS与Web攻击 ?
  • 全面解析机器学习与深度学习中的模型权重文件格式与应用场景
  • 解决 Antd 日期组件国际化失败或者 TypeError: clone.weekday is not a function 问题
  • VSCode CMake工作流
  • Java并发编程:synchronized机制
  • Redis--基础知识点--26--过期删除策略 与 淘汰策略
  • 聊聊redisson的lockWatchdogTimeout
  • AWS Elastic Beanstalk部署极简Spring工程(EB CLI失败版)
  • 基于OpenCV的人脸微笑检测实现
  • 乘法口诀练习神器
  • 富文本编辑器:链接功能
  • 基于 Python Requests + Pytest + Allure 构建接口自动化测试框架的最优实践
  • 编程日志5.8
  • 【测试】测试分类
  • WebRTC 通话原理:从协商到通信
  • Intellij报错:the file size(3.47M) exceeds configured limit (2.56MB)
  • websocket入门详解
  • 第28周——InceptionV1实现猴痘识别
  • 鸿蒙OSUniApp实现个性化的搜索框与搜索历史记录#三方框架 #Uniapp
  • STM32单片机内存分配详细讲解
  • Android Studio中Gradle 7.0上下项目配置及镜像修改
  • 游戏引擎学习第280天:精简化的流式实体sim
  • 毕设设计 | 管理系统图例
  • ET EntityRef EntityWeakRef 类分析
  • 基于EFISH-SCB-RK3576/SAIL-RK3576的消防机器人控制器技术方案‌
  • VSTO(C#)Excel开发进阶2:操作图片 改变大小 滚动到可视区
  • 产品更新丨谷云科技 iPaaS 集成平台 V7.5 版本发布
  • [特殊字符] 苍穹外卖项目中的 WebSocket 实战:实现来单与催单提醒功能
  • Parsec解决PnP连接失败的问题
  • 星巴克中国要卖在高点