当前位置: 首页 > news >正文

Few-shot Personalized Scanpath Prediction

Abstract

        个性化扫描路径预测模型能够揭示个体受试者的视觉偏好和注意力模式特征。然而,现有扫描路径预测模型的训练方法需要大量数据,且难以仅用少量样本有效实现对新受试者的个性化适配。本文提出小样本个性化扫描路径预测任务(FS-PSP)及其解决方案,旨在利用目标受试者极少量的扫描路径行为数据,预测其未观测状态下的眼动轨迹。

        本方法的核心是专为捕获个体独特扫描路径表征而设计的受试者嵌入网络(SE-Net)。SE-Net生成的受试者嵌入向量能有效区分不同个体,同时最小化同一受试者扫描路径间的变异性。个性化扫描路径预测模型基于这些受试者嵌入向量生成准确的个性化结果。在多个眼动追踪数据集上的实验表明,我们的方法在FS-PSP任务中表现优异,且测试时无需任何微调步骤。

Introduction 

        最新的扫描路径预测模型在预测人类注意力方面表现出色[9,10,12,32,33,54,55,57],这对于自动驾驶[13,34]、虚拟与增强现实[23,45]、医疗诊断[5,43]以及信息可视化[48]等应用具有重要意义。然而,这些方法使用来自多个受试者的注意力数据进行训练,因此学习到的是群体层面的"平均"注意力模式,无法反映由文化、记忆和经验塑造的个体差异[22]。

        为了捕捉这些个性化的注意力模式,并避免群体平均可能导致的偏差,个性化扫描路径预测(PSP)模型尝试学习个体受试者的嵌入表征,用于预测个人的扫描路径[10,21,59]。PSP特别适用于推荐系统[7,40,42]和广告投放[37]等应用场景,因为它能够从个体的注意力模式中解码出受试者的个性特征。

        现有个性化扫描路径预测(PSP)模型的一个主要局限在于需要大量数据才能准确捕捉个体注意力模式。例如,在训练模型预测人们搜索物体时的扫描路径[54]时,必须收集包含269,760个搜索注视点的COCO-Search18数据集[9],这项工作需要10名受试者每人到实验室接受10-12小时的眼动追踪记录。为了使PSP模型具有实际应用价值,其训练数据量必须大幅减少。

        为此,我们提出了小样本个性化扫描路径预测(FS-PSP)任务,该任务要求仅通过少量行为观察(此处定义为受试者观看≤10张图像时的扫描路径)来预测个体注意力模式。我们将为每个受试者收集的图像-扫描路径对称为支持样本。

        图1. 小样本个性化扫描路径预测(FS-PSP)。当面对仅掌握新受试者少量注视行为示例的情况时,我们能否使基础扫描路径预测模型适配该受试者?为此,我们提出通过"受试者嵌入提取网络"(SE-Net)来实现这种个性化适配。

        小样本个性化扫描路径预测(FS-PSP)面临的核心挑战在于:必须通过极少量支持样本捕捉个体注意力模式。现有PSP方法[10,21,59]因依赖大规模训练数据且缺乏高效适配机制,常对有限图像内容产生过拟合。这些方法通常以联合学习受试者嵌入与扫描路径模式为主要目标,以提升对"已见"受试者(即拥有充足训练数据的个体)的预测性能。然而,受试者嵌入仅被视为扫描路径预测的副产品,限制了模型利用已学嵌入知识适配新受试者的能力。这导致在少量场景下出现严重过拟合,且无法充分表征新个体的视觉模式——例如ISP[10]使用十个支持样本时性能显著下降,EyeFormer[21]也需要至少50条扫描路径才能获得稳定的个性化嵌入。

        本文提出一种无需重新训练或微调即可适配新受试者的灵活扫描路径模型。其关键在于将受试者嵌入学习与扫描路径预测解耦:首先学习编码个性化注意力特征的嵌入空间,再基于这些嵌入条件化扫描路径预测模型。这种分离设计通过避免联合学习的复杂性,实现了小样本场景下的稳健性能——嵌入提取器专注捕获个体扫描路径的独有特征,而预测模型仅需学习基于对应嵌入的条件映射。 

         具体而言,我们提出受试者嵌入网络(SE-

http://www.xdnf.cn/news/662221.html

相关文章:

  • Monorepo 管理
  • 寒武纪显卡MLU编译安装mmcv1.7.0、mmdetection2.26.0并测试
  • 悬空指针问题回顾与实践总结(Dangling Pointers Retrospective)
  • 前端大文件分片上传与断点续传方案
  • 边缘AI:在物联网设备上实现智能处理
  • 深浅拷贝?
  • 【数据集】基于ubESTARFM法的100m 地温LST数据集(澳大利亚)
  • 自动化测试工具:Selenium详解
  • Python基础语法(十三):命名空间与作用域
  • 新质生产力引擎:营销枢纽智能体贯通全链路,AI赋能企业数字化运营高效升级!
  • 了解哈希表
  • Haproxy编译安装
  • 【MogDB】测试 ubuntu server 22.04 LTS 安装mogdb 5.0.11
  • ceph osd 无法启动
  • 安装conda
  • 如何查看 GitLab 内置的 PostgreSQL 版本?
  • 记录一个有用的tcpdump命令
  • Veeam Backup Replication Console 13 beta 备份 VMware esxi
  • Redis 中跳表
  • 从“无我”到“无生法忍”:解构执着的终极智慧
  • (vue)vue3+vite+ts项目router路由添加
  • 项目管理进阶:详解项目管理办公室(PMO)实用手册【附全文阅读】
  • Vuex Actions: 异步操作
  • LVGL显示其他大小的中文
  • AE THYRO-AX 功率控制器 THYRISTOR-LEISTUNGSSTELLER THYRISTOR POWER CONTROLLER
  • NumPy 2.x 完全指南【十九】广播机制
  • Windows 拓展Path环境变量
  • uniapp 搭配uviwe u-picker 实现地区联栋
  • ETL 工具与数据中台的关系与区别
  • 1.6 如何使用命令行执行 TypeScript 文件