当前位置：首页 > java >正文

论文阅读（六）Open Set Video HOI detection from Action-centric Chain-of-Look Prompting

java 2025/7/17 2:27:17

论文来源：ICCV（2023）

项目地址：https://github.com/southnx/ACoLP

1.研究背景与问题

开放集场景下的泛化性：传统 HOI 检测假设训练集包含所有测试类别，但现实中存在大量未见过的 HOI 类别（如 “修理自行车” 在训练中未出现）。视频 HOI 需处理时间动态信息（如 “打开”“关闭” 等时序动作），静态图像方法无法直接迁移。

时序信息建模困难：视频中的交互依赖连续帧的时空关系，现有方法多聚焦物体和人体特征，忽略动作本身的语义核心作用。

现有方法局限：

缺乏动作中心建模：多数方法以物体 / 人体为中心，忽视动词（动作）的核心语义价值。
开放集能力不足：未显式设计泛化机制，难以识别训练未见的 HOI 类别。

2.核心创新点

2.1 动作中心的链式视觉提示（Chain-of-Look Prompting）

灵感来源：自然语言处理中的 “思维链”（Chain-of-Thought）提示，将复杂推理分解为中间步骤。

视频 HOI 的视觉推理分解：
- 视觉语义推理网络（VSR）：
  - CaptionHOI 提示（CHP）：利用 CLIP 和 BLIP 生成全局语义提示，融合图像字幕的高层语义（如 “人正在骑自行车”）。
  - VisualHOI 提示（VHP）：通过目标检测提取人机对视觉特征，增强局部视觉信息（如人体姿势、物体位置）。
- 时空推理网络（STR）：
  - 动作提示（AP）：将帧级视觉特征抽象为动作提示（如 “推”“拉”），对齐视觉与语义空间。
  - 动态 GNN（D-GNN）：建模跨帧动作的时间依赖，传播语义信息以捕捉时序动态（如 “开门” 的连续动作）。

2.2 开放集泛化机制

预训练视觉 - 语言模型（CLIP）的零样本能力：
- 通过 CLIP 文本编码器生成动作和 HOI 类别的语义嵌入，利用其视觉 - 语言对齐能力识别未见类别。
分层推理链：
- 通过 CHP→VHP→AP→D-GNN 的链式结构，逐步从全局语义、局部视觉、动作抽象到时空动态，增强泛化性。

2.3 端到端的视频 HOI 检测框架

两阶段流程：
- 目标检测：使用 Faster R-CNN 提取人机边界框和实例特征。
- 交互预测：通过 VSR 和 STR 生成动作与 HOI 提示，结合多层感知机（MLP）预测交互类别和边界框。

3.实验

3.1 计算要求

100 epochs on 4 GPUs with a batch size of 128（未提及具体显卡类型）

3.2 实验结果

4.结论与展望

4.1 贡献总结

首个开放集视频 HOI 检测模型：通过动作中心的链式提示机制，显式建模动作语义和时序动态。

高效泛化能力：利用 CLIP 的零样本能力和动态 GNN 的时序建模，显著提升未见类别的检测性能。

双模态推理框架：融合全局语义、局部视觉和时空动态，在开放集和封闭集场景均达 SOTA。

4.2 局限与未来方向

局限：对极低频交互（如单样本）泛化能力有限；计算成本较高（依赖预训练模型）。

未来方向：引入动态提示调整机制；探索无锚框的端到端检测；扩展至更长时序的视频片段。

http://www.xdnf.cn/news/10337.html

相关文章：

终结电源反接与压降损耗：理想二极管控制器深度解析

4、数据标注的武林秘籍：Label-Studio vs CVAT vs Roboflow

Java求职者面试题详解：Spring、Spring Boot、MyBatis技术栈

unix/linux source 命令，其发展历程详细时间线、由来、历史背景

宝塔专属清理区域,宝塔清理MySQL日志（高效释放空间）

基于SpringBoot+Redis实现RabbitMQ幂等性设计，解决MQ重复消费问题

Amazon GameLift实战指南：低成本构建高并发全球游戏服务器架构

ToolsSet之：XML工具

用户资产化视角下开源AI智能名片链动2+1模式S2B2C商城小程序的应用研究

工作流引擎-05-流程引擎（Process Engine）Camunda 8 协调跨人、系统和设备的复杂业务流程

用mediamtx搭建简易rtmp，rtsp视频服务器

头歌之动手学人工智能-Pytorch 之优化

深入了解Vue2和Vue3的响应式原理

OneRef论文精读（补充）

【设计模式-3.4】结构型——代理模式

【位运算】两整数之和（medium）

DAY 34 超大力王爱学Python

设计模式——责任链设计模式（行为型）

Linux线程同步实战：多线程程序的同步与调度

在 SpringBoot+Tomcat 环境中线程安全问题的根本原因以及哪些变量会存在线程安全的问题。

代谢组数据分析（二十六）：LC-MS/MS代谢组学和脂质组学数据的分析流程

【Linux】shell的条件判断

gin 常见中间件配置

系统思考：整体观和心智模式

Chrome 通过FTP，HTTP 调用 Everything 浏览和搜索本地文件系统

基于STM32单片机CO气体检测

C56-亲自实现字符串拷贝函数

python连接邮箱，下载附件，并且定时更新的方案

SSM框架前后端网站显示不出来图片