当前位置: 首页 > web >正文

[CVPR]DVFL-Net:用于时空动作识别的轻量级蒸馏视频调焦网络

研究背景与动机

  1. 视频识别技术演进​:

    • 从传统3D CNN转向Transformer架构,因后者能更好捕获长时空依赖关系。
    • 核心问题​:Transformer的自注意力机制计算复杂度高(O(n2)),处理密集视频数据时资源消耗大。
  2. 现有方案局限​:

    • Video-FocalNet(前期工作)用焦点调制(Focal Modulation)替代自注意力,但基础模型参数量达157M,仍不适合边缘设备部署。

核心创新:DVFL-Net

  1. 整体架构​:

    • 师生蒸馏框架​:
      • 教师模型​:预训练的Video-FocalNet Base(157M参数)。
      • 学生模型​:轻量化VFL-Net(22M参数),通过知识蒸馏继承教师模型的时空知识。
      • 蒸馏机制​:结合前向KL散度损失(Lkd​)和交叉熵损失(Lce​),优化目标为:
        Ltotal​=α⋅Lkd​+(1−α)⋅Lce​
      • </
http://www.xdnf.cn/news/15963.html

相关文章:

  • 华为开源自研AI框架昇思MindSpore应用案例:基于ERNIE模型实现对话情绪识别
  • Spring 事务和事务传播机制
  • CSS 单位完全指南:掌握 em、rem、vh、vw 等响应式布局核心单位
  • 仙盟数据库应用-外贸标签打印系统 前端数据库-V8--毕业论文-—-—仙盟创梦IDE
  • 单链表专题
  • docker compose 编排容器 mysql Springboot应用
  • 使用pnpm安装项目的生产依赖dependencies和开发依赖devDependies及pnpm工作空间等简单使用方法说明
  • 全面解析MySQL(2)——CRUD基础
  • SQL 调优第一步:EXPLAIN 关键字全解析
  • HTTP1-HTTP2-HTTP3简要概述
  • day 12 看门狗外设
  • 运行时常量池 和 字符串常量池 区别
  • 【数据集】NOAA 全球监测实验室(GML)海洋边界层(MBL)参考简介
  • 虚拟机VMware安装国产桌面系统统信UOS
  • 传输层协议 TCP
  • 【Python数据采集】Python爬取小红书搜索关键词下面的所有笔记的内容、点赞数量、评论数量等数据,绘制词云图、词频分析、数据分析
  • docker-compose启动前后端分离项目(单机)
  • ARFoundation系列讲解 - 101 VisionPro 真机调试
  • MySQL EXPLAIN 解读
  • DAY 20 奇异值分解(SVD)
  • ant+Jmeter+jenkins接口自动化,如何实现把执行失败的接口信息单独发邮件?
  • leetcode丑数II计算第n个丑数
  • zabbix服务器告警处理
  • 【milvus检索】milvus检索召回率
  • pages.json页面路由中,globalStyle的各个属性
  • 社交圈子系统开源社交源码 / 小程序+H5+APP 多端互通的底层技术分析
  • Ubuntu 24.04 设置静态 IP 的方法
  • 对LLM某一层进行优化:通过眼动数据发现中间层注重语句内在含义,进而对中间层参数优化
  • pthread_detach与pthread_join区别及使用场景
  • 408考研逐题详解:2010年第35题——RIP协议