当前位置：首页 > news >正文

推荐系统的视频特征-视频关键帧特征提取与向量生成

news 2025/9/2 20:01:28

📌 总体流程概览

视频文件 (.mp4)↓
关键帧抽取（FFmpeg / SceneDetect）↓
帧图像（.jpg）↓
图像模型提取特征（CLIP / CNN / ViT）↓
多帧聚合成视频向量（均值池化等）↓
向量库 / 推荐系统模型

🎯 特征提取推荐：使用 OpenAI 的 CLIP 模型

CLIP（Contrastive Language-Image Pretraining）适合推荐系统做跨模态建模，对视频封面帧或场景帧提取效果非常好。

✅ 1. 安装依赖

pip install torch torchvision ftfy regex tqdm
pip install git+https://github.com/openai/CLIP.git

✅ 2. 提取单帧图像的特征向量

import torch
import clip
from PIL import Imagedevice = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)def extract_clip_feature(image_path):image = preprocess(Image.open(image_path)).unsqueeze(0).to(device)with torch.no_grad():features = model.encode_image(image)return features.cpu().numpy().flatten()

✅ 3. 批量处理目录下的图像帧

import os
import numpy as npdef extract_dir_features(frame_dir, max_frames=5):frame_list = sorted([os.path.join(frame_dir, f) for f in os.listdir(frame_dir) if f.endswith('.jpg')])frame_list = frame_list[:max_frames]  # 可选：限制帧数features = [extract_clip_feature(p) for p in frame_list]return np.mean(features, axis=0)  # 聚合为视频向量

🧩 向量聚合策略

方法	说明
均值池化	简单平均（推荐，鲁棒）
最大池化	每维取最大值
attention聚合	可加入权重建模（需模型支持）
LSTM	融合多帧序列，捕捉时间关系（高级）

💾 特征保存方案

格式	说明
`.npy` / `.npz`	NumPy 向量存储（推荐）
`.pkl`	Python 对象存储
CSV / JSON	可读性高，但体积大
Faiss / Milvus	向量库，支持 ANN 检索

保存为 `.npy` 示例：

np.save('video_001_vector.npy', video_vector)

🧪 示例输出维度

使用 ViT-B/32，每帧输出：

单帧特征：(512,)
视频平均特征：(512,)

可直接用于用户-视频召回、相似度检索、排序模型等模块。

🧠 可选增强：同时提图像 & 文本特征

你可以配合视频标签、标题、评论等文本用 CLIP 提 text_features：

text = clip.tokenize(["a man driving a car"]).to(device)
text_feat = model.encode_text(text)

再与图像特征 cosine_similarity 计算 图文相关性分数。

✅ 最终推荐向量格式建议

{"video_id": "cars_001","clip_vector": [0.123, 0.345, ..., 0.890],  // 长度512"source": "scene_ffmpeg","timestamp": "2025-06-26T12:00:00Z"
}

查看全文

http://www.xdnf.cn/news/1069633.html

七天学会SpringCloud分布式微服务——02——第一个微服务项目

Flink Oracle CDC 总结

六个安全Agent设计模式：有效防止Prompt注入攻击

Milvus 资源调度系统的核心部分：「查询节点」「资源组」「数据库」

黑马ReactDay02

gitlab https链接转为ssh链接

Android 开发获取Debug 跟 Release 包的SHA1值

Host ‘db01‘ is not allowed to connect to this MariaDB server 怎么解决？

原子级制造革命：双原子镧催化剂登顶Angew，焦耳超快加热技术深度解析

卷积神经网络（Convolutional Neural Network, CNN）

论文阅读：A Survey on Large Language Models for Code Generation

量学云讲堂王岩江宇龙2025年第58期视频主课正课系统课+收评

八股文——JAVA基础：说一下C++与java的区别

【笔记】Docker 配置阿里云镜像加速（公共地址即开即用，无需手动创建实例）

使用pyflink编写demo并将任务提交到yarn集群

python的智慧养老院管理系统

20250625解决在Ubuntu20.04.6LTS下编译RK3588的Android14出现cfg80211.ko的overriding问题

GBDT：梯度提升决策树——集成学习中的预测利器

自动化测试--Appium和ADB及常用指令

python学习笔记（深度学习）

深入浅出：RocketMQ与Kafka的双剑合璧，实现高可用与高吞吐

Fisco Bcos学习 - 搭建第一个区块链网络

《从0到1：C/C++音视频开发自学完全指南》

达梦数据库安装

没有VISA怎么注册AWS？

WinAppDriver 自动化测试：Python篇

【基础篇-消息队列】——如何通过网络传输结构化的数据（序列化与反序列化）

MySQL之存储过程详解

《汇编语言：基于X86处理器》第4章复习题和练习，编程练习

定位坐标系深度研究报告