[CVPR]DVFL-Net:用于时空动作识别的轻量级蒸馏视频调焦网络
研究背景与动机
-
视频识别技术演进:
- 从传统3D CNN转向Transformer架构,因后者能更好捕获长时空依赖关系。
- 核心问题:Transformer的自注意力机制计算复杂度高(O(n2)),处理密集视频数据时资源消耗大。
-
现有方案局限:
- Video-FocalNet(前期工作)用焦点调制(Focal Modulation)替代自注意力,但基础模型参数量达157M,仍不适合边缘设备部署。
核心创新:DVFL-Net
-
整体架构:
- 师生蒸馏框架:
- 教师模型:预训练的Video-FocalNet Base(157M参数)。
- 学生模型:轻量化VFL-Net(22M参数),通过知识蒸馏继承教师模型的时空知识。
- 蒸馏机制:结合前向KL散度损失(Lkd)和交叉熵损失(Lce),优化目标为:
Ltotal=α⋅Lkd+(1−α)⋅Lce </
- 师生蒸馏框架: