当前位置: 首页 > ai >正文

【技术分享】XR技术体系浅析:VR、AR与MR的区别、联系与应用实践

XR技术体系浅析:VR、AR与MR的区别、联系与应用实践

作者:EQ 雪梨蛋花汤

本文是技术分享文档,浅析VR(虚拟现实)、AR(增强现实)、MR(混合现实)的定义、特性、技术演进路线,并分析AR中的OST(光学透视)与VST(视频透视)两大实现路径,及其与MR技术的融合趋势。


第一章:XR概念总览与技术谱系

XR(Extended Reality)是虚拟与现实空间融合的综合技术名,包括VR、AR和MR。其本质是用数字信息扩展或更新现实感知,实现用户与虚拟内容、现实场景的高度融合和交互。

1.1 基本概念介绍

  • VR(虚拟现实):构建纯虚拟的世界,用户被完全隔绝于现实世界,中心是“深度沉浸”。
  • AR(增强现实):将虚拟元素、信息、动画在现实环境中加以重新视觉扩展,重点是“现实上的增强”。
  • MR(混合现实):将虚拟世界与现实世界规划为一个可以相互作用、环境共享的空间,其核心是“虚实融合、物理交互”。

在这里插入图片描述

1.2 XR技术联系

XR三类技术(VR、AR、MR)在硬件架构、数据流、显示技术、交互方式方面各有侧重,但又存在强关联性。如下图所示:
在这里插入图片描述

1.3 XR发展脉络与趋势

XR并非单一技术进化结果,而是由以下几条技术路径交汇而成:

  • 计算平台:从PC -> 移动端 -> 边缘计算 -> 云渲染;
  • 感知能力:由视觉为主扩展至多模态传感器(IMU、深度、语音);
  • 网络演进:从4G到5G/6G推动了低延迟XR体验;
  • 人机交互:从手柄到裸手再到脑机接口探索。

第二章:AR技术分析:OST与VST方案

增强现实技术的核心是“在现实的基础上进行信息扩展”。根据环境采集和展示方式,分为OST和VST两类基本实现路径。

2.1 OST(Optical See Through)原理与特性

OST通过半透镜直接观看现实世界,将虚拟图像投射于用户眼前。是一种光学线路双路并行的设计。

技术特点
  • 现实图像无需处理,無延迟。
  • 虚拟图像需要出光光路与观感光路完美对齐,否则有错位感。
  • 因光学透明,无法做好虚实遮挡,虚拟物体很难挡住现实物体。
工作流程

在这里插入图片描述

应用特征
  • 更适合室外强光场景下的信息提示。
  • 通常使用空间定位技术进行图像锚定。
  • 对显示器亮度与视场角要求较高。

2.2 VST(Video See Through)原理与特性

VST方案采用摄像头拍摄现场环境,通过应用程序进行虚拟图像结合和添加,最后返回到显示屏幕。

技术特点
  • 无光学通道,所有观看内容由数字编辑。
  • 可精确控制虚拟遮挡,进行深度挖掘。
  • 对硬件和后端处理性能要求高,容易造成延迟。
数据流基本流程

在这里插入图片描述

应用特征
  • 适合需要复杂交互或遮挡效果的增强现实。
  • 室内场景表现优于OST。
  • 支持与AI视觉分析、SLAM等系统结合。

2.3 OST与VST技术格式对比

组合项OST(光学透视)VST(视频透视)
环境观看路径光学直视数字转换
虚实遮挡效果不可精确控制可完全支持深度遮挡
延迟极低/无有延迟(取决于系统效率)
补光、带宽光影易变可由后端调整
实现难点光学对齐、视觉校准摄像头同步、图像畸变矫正

2.4 AR内容的空间锚定机制

AR体验核心在于“稳定”的虚拟物体放置,这依赖于锚定技术:

  • 图像锚定(Image Anchoring):识别预定义图案,如海报、书本等;
  • 平面锚定(Plane Tracking):自动识别水平/垂直平面;
  • 空间锚定(World Anchors):记录某一三维位置,便于回访。

ARCore 是 Google 推出的用于打造增强现实体验的平台。ARCore 利用不同的 API 让您的手机能够感知其环境、理解世界并与信息进行交互。其中一些 API 在 Android 和 iOS 上提供,以实现共享 AR 体验。

ARCore 的运动跟踪技术使用手机的摄像头来识别兴趣点(称为特征),并跟踪这些点随时间的移动情况。ARCore 会综合考虑这些点的移动和手机惯性传感器的读数,确定手机在空间移动时的位置和方向。
除了识别关键点之外,ARCore 还可以检测平坦的表面(例如桌子或地板),还可以估算周围区域的平均光照强度。这些功能相结合,让 ARCore 可以构建自己对周围世界的理解。

当您的手机在现实世界中移动时,ARCore 会使用视觉SLAM来理解手机相对于周围环境的位置。ARCore 会检测捕获的摄像头图像中视觉上不同的特征(称为特征点),并使用这些点来计算其位置变化。这些视觉信息会与设备 IMU 的惯性测量结果相结合,以估算摄像头相对于周围世界的姿态(位置和方向)。
在这里插入图片描述
环境识别:
在这里插入图片描述


第三章:VR技术结构与基础实现

虚拟现实是构建一个完全由计算机生成的三维空间,用户沉浸其中,通过交互装置进行导航、交互、观察等操作。该系统核心是“沉浸性”与“交互性”的结合。

3.1 VR系统构成模块

  • 空间追踪系统:负责获取头部和手部的位置变化,实现视角跟踪。
  • 图形渲染模块:由游戏引擎(如Unity)实时生成虚拟世界图像。
  • 音频系统:实现3D空间音效渲染,增强沉浸感。
  • 交互系统:支持控制器输入、手势操作、眼动跟踪等。

3.2 虚拟场景设计原则

  • 一致性:用户行为与视觉反馈之间保持一致。
  • 响应性:快速响应用户操作,避免延迟感知。
  • 沉浸性:通过视觉、听觉、触觉构建完整虚拟空间。
  • 导航性:提供良好的移动与空间感知机制,如传送、摇杆、手势位移等。

3.3 VR交互方式

  • 空间控制器:按键+空间定位。
  • 手势识别:摄像头识别用户手部动作。
  • 语音识别:语义命令驱动行为。
  • 眼动追踪:焦点驱动选择与界面互动。

3.4 VR图形渲染流水线详解

现代VR图像通常由游戏引擎(如Unity/Unreal)根据以下步骤生成:

  1. 用户位置更新(传感器);
  2. 构建视角投影矩阵;
  3. 渲染左右眼视图;
  4. 图像畸变矫正;
  5. 推送至屏幕显示。

第四章:MR核心机制与VST融合路径

混合现实不仅强调在现实世界中加入虚拟内容,更要求虚拟内容与现实环境的物理属性发生交互,例如遮挡、碰撞、共享空间等。

4.1 MR实现基础

MR通常在VST的基础上增加以下模块:

  • 空间定位与建图(SLAM):实时构建用户所处空间地图。
  • 深度传感与理解:利用结构光、ToF或AI视觉理解环境深度。
  • 虚实遮挡融合:判断虚实物体位置关系实现正确遮挡。
  • 交互管理:响应手势、眼动、语音命令,驱动虚拟物体行为。

4.2 MR与VST的融合逻辑

  • MR继承VST的图像路径,增强其深度感知能力。
  • 使用空间锚点与真实世界场景构建虚拟映射。
  • 实现双向交互(如“碰撞虚拟墙体”或“用手推动虚拟按钮”)。

4.3 虚实遮挡技术原理

MR核心在于虚拟物体正确“遮挡”现实对象,或被现实对象遮挡。这需要:

  • 精确获取真实世界深度图;
  • 建立真实物体的三维包围盒(bounding box);
  • 在渲染管线中依据Z-buffer处理遮挡优先级。

在这里插入图片描述

4.4 MR场景中的物理交互

在MR环境中,虚拟物体不仅要“看上去存在”,还需“行为上真实”。这涉及:

  • 虚拟物体受真实物理世界影响(如地面重力、碰撞);
  • 虚拟与现实的互动(如推门、拿杯子);
  • 跨模态输入:语音控制虚拟助手、手势拖动现实界面。

总结与推荐

本文系统梳理了XR技术的核心内容,重点解析了VR、AR、MR的定义及实现方案,特别是AR的OST与VST技术路线和MR的融合机制。
希望能帮助你全面理解XR技术的全貌与应用趋势。

如果你想深入学习XR相关技术,推荐关注我的专栏:

  • 我的XR开发记录

不定期分享XR开发的原创文档。包含但不限于3D、AR、VR相关内容

  • VR 360°全景视频开发

专栏内容涵盖安卓原生VR播放器开发、Unity VR视频渲染与手势交互、360°全景视频制作与优化,以及高分辨率视频性能优化等实战技巧。敬请关注每周更新的技术分享!

http://www.xdnf.cn/news/14576.html

相关文章:

  • 从语言到生态:编程语言在各行业的应用格局与未来演进
  • 考研408《计算机组成原理》复习笔记,第三章(1)——存储系统概念
  • CMCC RAX3000M nand版 OpenWrt 可用空间变小的恢复方法
  • redis相关面试题
  • 使用模板创建uniapp提示未关联uniCloud问题
  • vscode+react+ESLint解决不引入组件,vscode不会报错的问题
  • 小孙学变频学习笔记(四)变频器的逆变器件—IGBT管(下)
  • linux 远程终端执行qt应用显示到接入的物理显示器上
  • 如何仅用AI开发完整的小程序<5>—让AI制作开始页面
  • C++ Programming Language —— 第2章:数据类型
  • C#.NET HttpClient 使用教程
  • 【Dicom标准】dicom数据中pixelData显示处理流程详细介绍
  • Linux 服务器运维:磁盘管理与网络配置
  • 一个免费的视频、音频、文本、图片多媒体处理工具
  • ICM-20948 Wake on Motion功能开发全过程(8)
  • Python 的内置函数 hash
  • python模块常用语法sys、traceback、QApplication
  • 操作系统内核态和用户态--2-系统调用是什么?
  • 决策树:化繁为简的智能决策利器
  • GO语言---数组
  • 【Docker基础】Docker镜像管理:docker rmi、prune详解
  • 经典:在浏览器地址栏输入信息到最终看到网页的全过程,涉及网络协议以及前后端技术
  • Vue状态管理实践:使用Vuex进行前端状态管理
  • FVISION 未来视界工作室:AI驱动的创新与智能外包平台
  • TodoList 案例(Vue3): 使用Composition API
  • Snapchat矩阵运营新策略:亚矩阵云手机打造高效社交网络
  • 基于SpringBoot+Uniapp的活动中心预约小程序(协同过滤算法、腾讯地图、二维码识别)
  • 【论文笔记】【强化微调】TinyLLaVA-Video-R1:小参数模型也能视频推理
  • SQLite 数据库操作完整指南
  • Spring Boot邮件发送终极指南:从基础到高级应用