【第四十周】眼动追踪基础
眼动追踪基础
- 摘要
- Abstract
- 1. 相机模型
- 2. 眼动追踪技术
- 2.1 瞳孔-角膜反射技术原理
- 2.2 眼动追踪的步骤
- 3. Tobii 眼动仪
- 总结
摘要
本博客首先通过相机模型讲解了**视场角(FOV)**的概念,即透镜焦距和传感器尺寸决定了水平、垂直和对角视场角的大小,而且焦距越短视野越广。通过对视场角的介绍,引入了眼动追踪的评价标准视场角误差。随后聚焦于眼动追踪的 PCCR 方法,介绍了其通过红外照明在角膜上形成 Purkinje 反射,并通过摄像头捕捉瞳孔中心与角膜反射中心,从而构建瞳孔–反射向量来估计视线方向的过程。该方法的优势在于非侵入性、支持头部微动补偿及高精度追踪,尤其结合角膜反射可有效区分眼球运动与头部移动。此外,阐述主流设备(如 Tobii)的系统结构、近红外光照设计与注视映射效率。
Abstract
This blog begins by explaining the concept of the field of view (FOV) through the camera model, clarifying that lens focal length and sensor size determine the horizontal, vertical, and diagonal FOV, and that shorter focal lengths result in wider views. Through this discussion of FOV, the concept of FOV error—a key metric in evaluating eye-tracking systems—is introduced. The focus then shifts to the PCCR (Pupil–Center Corneal Reflection) method in eye-tracking: near-infrared illumination creates a Purkinje reflection on the cornea, and a camera captures the centers of the pupil and corneal reflection to form a pupil–reflection vector, which is then used to estimate gaze direction. This method offers non-invasiveness, micromotion head compensation, and high tracking accuracy, with the corneal reflection effectively distinguishing between eye rotations and head movements. Finally, the blog outlines the system architecture of mainstream devices like Tobii, detailing their near-infrared illumination design and gaze mapping efficiency.
1. 相机模型
焦距是镜头中衡量光聚集的度量,指平行光入射时从透镜光心到光聚集的焦点之间的距离,简单来说焦距是焦点(传感器)到面镜的中心点之间的距离。焦距常用 f 表示。
视场角是以光学仪器(传感器)的镜头为顶点,以被测目标的物像可通过镜头看到的最大范围的两条边缘构成的夹角,称为视场角(Field of View, FOV)。在机器视觉中,视场是在相机成像仪上捕获的检测区域,镜头焦距和图像传感器尺寸对视场角FOV的值产生影响。
- Fov指的是相机视场(Field of View)张角,用来描述拍摄的范围。
- Focal Length 是焦距,指的是成像元件(传感器)的光学中心到成像平面的距离。
- Sensor 则指的是相机的感光元件,也就是像平面所在的位置。
如果镜头焦距减少,视角将扩大。在相机与被检测物体的相对距离不发生改变的情况下,所能拍到的范围增加,但是分辨率要小(由于同样面积的图像传感器要记录更大的面积,所以单位面积的物体均摊到的传感器单元上的数量就少了)。
视场角可分为对角线视场角(FOV-Diagonal)、水平视场角(FOV-Horizontal)、以及垂直视场角(FOV-Vertical)。
其中对角线视场角DFOV最大,水平视场角HFOV次之,垂直视场角VFOV最小。通常我们所讲的视场角一般是指对角线视场角。DFOV由传感器的Focal Length(焦距), Width(宽度), High(高度)共同决定。HFOV由传感器的Focal Length,Width决定, VFOV传感器的Focal Length,High决定。三种视场角计算方式如下:
W F O V = 2 a r c t a n H 2 f WFOV=2arctan{\frac{H}{2f}} WFOV=2arctan2fH H F O V = 2 a r c t a n W 2 f HFOV=2arctan{\frac{W}{2f}} HFOV=2arctan2fW H F O V = 2 a r c t a n S 2 f HFOV=2arctan{\frac{S}{2f}} HFOV=2arctan2fS视场角的大小主要取决于画幅的尺寸和镜头焦距的长短。如果画幅的尺寸已固定,那么视角的大小完全取决于镜头焦距的长短。即焦距与视角成反比关系。镜头的焦距愈短,则该镜头的视角就愈广;反之,镜头的视角就愈窄。
镜头的焦距与视角之间的关系如下图所示:
镜头的焦距与对角线视角之间的近似关系如下图所示:
**视场角误差:**在眼动追踪任务中,眼动仪会输出一个估计视角(视线方向向量),但由于硬件、算法和个体差异,这个估计往往与真实注视点有一定偏差。这个偏差在几何上表现为两条视线之间的夹角,称为视场角误差。
2. 眼动追踪技术
眼动追踪技术是指通过测量眼睛的注视点的位置或者眼球相对头部的运动而实现对眼球运动的追踪。
目前热门的眼动追踪技术主要是基于眼睛视频分析(VOG,Video oculographic)的“非侵入式”技术,其基本原理是:将一束光线和一台摄像机对准被试者的眼睛,通过光线和后端分析来推断被试者注视的方向,摄像机则记录交互的过程。
2.1 瞳孔-角膜反射技术原理
目前的眼动仪多采用的是基于瞳孔-角膜反射(Pupil Center Corneal Reflection, PCCR)的识别技术,其所利用的眼动过程保持不变的特征,是眼球角膜外表面上的普尔钦斑(Purkinje image)——眼球角膜上的一个亮光点,由进入瞳孔的光线在角膜外表面上反射(corneal reflection,CR)而产生。
眼睛旋转时,相机传感器上瞳孔中心的位置会改变。但是,(当头部稳定时),角膜反射(CR)的位置相对固定在摄像头传感器上(因为反射源不会相对于摄像头移动)。下图说明了当眼睛向前看,然后旋转到一侧然后再旋转到另一侧时相机所看到的眼图像。如您所见,CR的中心保持在大致相同的位置(就相机像素坐标而言),而瞳孔的中心在移动。
如果眼睛在空间中的绝对位置不变,且只做眼球旋转的运动,则仅在摄像机传感器上跟踪瞳孔中心的变化就可以确定注视/凝视的位置。实际上,仅瞳孔跟踪仍可以在某些头戴式或基于“眼镜”的眼动仪中使用,无论头部如何移动,相机和眼睛之间的关系都保持相对固定。
但是,对于台式或遥测式眼动仪,即使使用下巴/前额托来稳定头部,也无法防止头部的微小移动,并且这些头部动作也会改变瞳孔在相机传感器上的位置。这就需要用到瞳孔角膜反射的方法,下图显示了当头部从一侧向另一侧轻微移动时从摄像机看到的眼睛。
在上面情况下,瞳孔和角膜反射都在相机传感器上移动。那么,眼动仪如何区分由眼睛旋转引起的相机传感器上的瞳孔位置变化与由头部运动引起的瞳孔位置变化呢?还有一点很重要的是,随着头部的移动,瞳孔中心和角膜反射中心之间的关系基本保持不变,而当眼睛旋转时,该关系发生变化。当前的基于视频的眼动仪利用PCCR关系中的这种差异来补偿头部运动。
2.2 眼动追踪的步骤
- 红外照明:使用近红外光源照射受试者眼睛,得到角膜反射点;
- 图像采集:红外相机(通常摆放于屏幕下方或设备内)获取带有瞳孔与角膜反射的眼部图像;
- 特征检测:图像处理算法定位瞳孔中心和角膜反射中心;
- 校准:被试注视屏幕上的多个已知点;系统记录对应的瞳孔–反射向量,并映射为真实视线方向。这一步建立 3D 坐标关系或多项式映射模型;
- 估计视线:先获取当前瞳孔–反射向量,再输入校准模型,预测视线方向或注视点。
3. Tobii 眼动仪
本小节以Tobbi的基于视频的眼动仪为例说明眼动追踪的工作流程。
眼动仪通常由近红外光照明模块、摄像头传感器和处理器(图像检测、3D 眼模型、注视映射算法)等模块组成。
- 照亮眼睛
使用近红外光谱光来照亮眼睛并在每只眼睛上产生光反射图案。具体来说,光反射落在瞳孔(眼睛中央的圆形黑色开口)和角膜(眼睛前部的透明外层)上。光在角膜上的反射是相对于瞳孔中心的位置进行跟踪的,这使我们能够估计凝视点。 - 传感器的反射检测
眼动仪包含对近红外光敏感的相机传感器,可捕捉眼睛和反射的图像。摄像头传感器位于测试者的面前,可以清楚地看到测试者的眼睛。 - 图像处理和分析
从相机中获取眼睛的图像并发送进行分析,用图像处理算法估计个体眼睛的 3D 模型和眼睛在空间中的位置。 Tobii 眼动仪无需头枕或下巴托即可准确计算注视点。在图像分析过程中检测瞳孔中心和角膜反射,以计算注视点。
使用近红外光的原因:
眼动追踪的准确性取决于对瞳孔中心和角膜反射的精确注释。需要稳定的照明源,近红外光可以承受环境变化并允许随时进行准确标注,可以满足准确和高精度的眼动追踪的所有要求:人眼不可见(避免对测试者带来干扰)、在不同条件下提供稳定的照明。
总结
眼动追踪结合相机视场角与瞳孔‑角膜反射(PCCR)两大核心原理,首先通过焦距与传感器尺寸计算出水平、垂直与对角线三个方向的视场角,从而定义摄像系统的能视范围。;而在实际追踪过程中,系统通过近红外光照明产生角膜反射并捕捉瞳孔中心位置,将两者构成的向量映射到校准模型中,以估算用户注视方向,且能有效区分眼球旋转与头动带来的图像变化。该方法具备非接触、高精度、头动微补偿等优点。