当前位置：首页 > web >正文

[CVPR]DVFL-Net：用于时空动作识别的轻量级蒸馏视频调焦网络

web 2025/7/21 10:44:06

研究背景与动机

视频识别技术演进：
- 从传统3D CNN转向Transformer架构，因后者能更好捕获长时空依赖关系。
- 核心问题：Transformer的自注意力机制计算复杂度高（O(n2)），处理密集视频数据时资源消耗大。
现有方案局限：
- Video-FocalNet（前期工作）用焦点调制（Focal Modulation）替代自注意力，但基础模型参数量达157M，仍不适合边缘设备部署。

核心创新：DVFL-Net

整体架构：
- 师生蒸馏框架：
  - 教师模型：预训练的Video-FocalNet Base（157M参数）。
  - 学生模型：轻量化VFL-Net（22M参数），通过知识蒸馏继承教师模型的时空知识。
  - 蒸馏机制：结合前向KL散度损失（Lkd）和交叉熵损失（Lce），优化目标为：
    Ltotal=α⋅Lkd+(1−α)⋅Lce

http://www.xdnf.cn/news/15963.html

相关文章：

华为开源自研AI框架昇思MindSpore应用案例：基于ERNIE模型实现对话情绪识别

Spring 事务和事务传播机制

CSS 单位完全指南：掌握 em、rem、vh、vw 等响应式布局核心单位

仙盟数据库应用-外贸标签打印系统前端数据库-V8--毕业论文-—-—仙盟创梦IDE

单链表专题

docker compose 编排容器 mysql Springboot应用

使用pnpm安装项目的生产依赖dependencies和开发依赖devDependies及pnpm工作空间等简单使用方法说明

全面解析MySQL(2)——CRUD基础

SQL 调优第一步：EXPLAIN 关键字全解析

HTTP1-HTTP2-HTTP3简要概述

day 12 看门狗外设

运行时常量池和字符串常量池区别

【数据集】NOAA 全球监测实验室（GML）海洋边界层（MBL）参考简介

虚拟机VMware安装国产桌面系统统信UOS

传输层协议 TCP

【Python数据采集】Python爬取小红书搜索关键词下面的所有笔记的内容、点赞数量、评论数量等数据，绘制词云图、词频分析、数据分析

docker-compose启动前后端分离项目（单机）

ARFoundation系列讲解 - 101 VisionPro 真机调试

MySQL EXPLAIN 解读

DAY 20 奇异值分解（SVD）

ant+Jmeter+jenkins接口自动化，如何实现把执行失败的接口信息单独发邮件？

leetcode丑数II计算第n个丑数

zabbix服务器告警处理

【milvus检索】milvus检索召回率

pages.json页面路由中，globalStyle的各个属性

社交圈子系统开源社交源码 / 小程序+H5+APP 多端互通的底层技术分析

Ubuntu 24.04 设置静态 IP 的方法

对LLM某一层进行优化：通过眼动数据发现中间层注重语句内在含义，进而对中间层参数优化

pthread_detach与pthread_join区别及使用场景

408考研逐题详解：2010年第35题——RIP协议