Few-shot Personalized Scanpath Prediction
Abstract
个性化扫描路径预测模型能够揭示个体受试者的视觉偏好和注意力模式特征。然而,现有扫描路径预测模型的训练方法需要大量数据,且难以仅用少量样本有效实现对新受试者的个性化适配。本文提出小样本个性化扫描路径预测任务(FS-PSP)及其解决方案,旨在利用目标受试者极少量的扫描路径行为数据,预测其未观测状态下的眼动轨迹。
本方法的核心是专为捕获个体独特扫描路径表征而设计的受试者嵌入网络(SE-Net)。SE-Net生成的受试者嵌入向量能有效区分不同个体,同时最小化同一受试者扫描路径间的变异性。个性化扫描路径预测模型基于这些受试者嵌入向量生成准确的个性化结果。在多个眼动追踪数据集上的实验表明,我们的方法在FS-PSP任务中表现优异,且测试时无需任何微调步骤。
Introduction
最新的扫描路径预测模型在预测人类注意力方面表现出色[9,10,12,32,33,54,55,57],这对于自动驾驶[13,34]、虚拟与增强现实[23,45]、医疗诊断[5,43]以及信息可视化[48]等应用具有重要意义。然而,这些方法使用来自多个受试者的注意力数据进行训练,因此学习到的是群体层面的"平均"注意力模式,无法反映由文化、记忆和经验塑造的个体差异[22]。
为了捕捉这些个性化的注意力模式,并避免群体平均可能导致的偏差,个性化扫描路径预测(PSP)模型尝试学习个体受试者的嵌入表征,用于预测个人的扫描路径[10,21,59]。PSP特别适用于推荐系统[7,40,42]和广告投放[37]等应用场景,因为它能够从个体的注意力模式中解码出受试者的个性特征。
现有个性化扫描路径预测(PSP)模型的一个主要局限在于需要大量数据才能准确捕捉个体注意力模式。例如,在训练模型预测人们搜索物体时的扫描路径[54]时,必须收集包含269,760个搜索注视点的COCO-Search18数据集[9],这项工作需要10名受试者每人到实验室接受10-12小时的眼动追踪记录。为了使PSP模型具有实际应用价值,其训练数据量必须大幅减少。
为此,我们提出了小样本个性化扫描路径预测(FS-PSP)任务,该任务要求仅通过少量行为观察(此处定义为受试者观看≤10张图像时的扫描路径)来预测个体注意力模式。我们将为每个受试者收集的图像-扫描路径对称为支持样本。
图1. 小样本个性化扫描路径预测(FS-PSP)。当面对仅掌握新受试者少量注视行为示例的情况时,我们能否使基础扫描路径预测模型适配该受试者?为此,我们提出通过"受试者嵌入提取网络"(SE-Net)来实现这种个性化适配。
小样本个性化扫描路径预测(FS-PSP)面临的核心挑战在于:必须通过极少量支持样本捕捉个体注意力模式。现有PSP方法[10,21,59]因依赖大规模训练数据且缺乏高效适配机制,常对有限图像内容产生过拟合。这些方法通常以联合学习受试者嵌入与扫描路径模式为主要目标,以提升对"已见"受试者(即拥有充足训练数据的个体)的预测性能。然而,受试者嵌入仅被视为扫描路径预测的副产品,限制了模型利用已学嵌入知识适配新受试者的能力。这导致在少量场景下出现严重过拟合,且无法充分表征新个体的视觉模式——例如ISP[10]使用十个支持样本时性能显著下降,EyeFormer[21]也需要至少50条扫描路径才能获得稳定的个性化嵌入。
本文提出一种无需重新训练或微调即可适配新受试者的灵活扫描路径模型。其关键在于将受试者嵌入学习与扫描路径预测解耦:首先学习编码个性化注意力特征的嵌入空间,再基于这些嵌入条件化扫描路径预测模型。这种分离设计通过避免联合学习的复杂性,实现了小样本场景下的稳健性能——嵌入提取器专注捕获个体扫描路径的独有特征,而预测模型仅需学习基于对应嵌入的条件映射。
具体而言,我们提出受试者嵌入网络(SE-