当前位置: 首页 > news >正文

【字节拥抱开源】字节团队开源视频模型 ContentV: 有限算力下的视频生成模型高效训练

本项目提出了ContentV框架,通过三项关键创新高效加速基于DiT的视频生成模型训练:

  • 极简架构设计,最大化复用预训练图像生成模型进行视频合成
  • 系统化的多阶段训练策略,利用流匹配技术提升效率
  • 经济高效的人类反馈强化学习框架,无需额外人工标注即可提升生成质量

我们开源的80亿参数模型(基于Stable Diffusion 3.5 Large和Wan-VAE)仅用4周时间在256×64GB NPU上训练,就取得了VBench评测85.14分的业界最佳成绩。

在这里插入图片描述

在这里插入图片描述

⚡ 快速开始

推荐PyTorch版本
  • GPU版本:torch >= 2.3.1 (CUDA >= 12.2)
  • NPU版本:torch和torch-npu >= 2.1.0 (CANN >= 8.0.RC2)。请参考昇腾PyTorch扩展安装torch-npu。
安装步骤
git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文生视频

## For GPU
python3 demo.py
## For NPU
USE_ASCEND_NPU=1 python3 demo.py

24GB消费级显卡可以使用,建议开启model offload。

📊 VBench

ModelTotal ScoreQuality ScoreSemantic ScoreHuman ActionSceneDynamic DegreeMultiple ObjectsAppear. Style
Wan2.1-14B86.2286.6784.4499.2061.2494.2686.5921.59
ContentV (Long)85.1486.6479.1296.8057.3883.0571.4123.02
Goku†84.8585.6081.8797.6057.0876.1179.4823.08
Open-Sora 2.084.3485.4080.1295.4052.7171.3977.7222.98
Sora†84.2885.5179.3598.2056.9579.9170.8524.76
ContentV (Short)84.1186.2375.6189.6044.0279.2674.5821.21
EasyAnimate 5.183.4285.0377.0195.6054.3157.1566.8523.06
Kling 1.6†83.4085.0076.9996.2055.5762.2263.9920.75
HunyuanVideo83.2485.0975.8294.4053.8870.8368.5519.80
CogVideoX-5B81.6182.7577.0499.4053.2070.9762.1124.91
Pika-1.0†80.6982.9271.7786.2049.8347.5043.0822.26
VideoCrafter-2.080.4482.2073.4295.0055.2942.5040.6625.13
AnimateDiff-V280.2782.9069.7592.6050.1940.8336.8822.42
OpenSora 1.279.2380.7173.3085.8042.4747.2258.4123.89

❤️ 感谢

  • Stable Diffusion 3.5 Large
  • Wan2.1
  • Diffusers
  • HuggingFace
http://www.xdnf.cn/news/950617.html

相关文章:

  • 安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(质检)
  • 浅谈 ST 表(Sparse Table,稀疏表)
  • 基于ffmpeg+sdl的audio player
  • uniapp 实现腾讯云IM群文件上传下载功能
  • 基于亚博K210开发板——WiFi 模块联网
  • C语言 学习 文件操作(开关,读写,定位,大小)操作 2025年6月8日12:19:24
  • C语言 学习 模块化编程 2025年6月9日19:39:17
  • 论文阅读笔记——Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing
  • 触发DMA传输错误中断问题排查
  • Redis哨兵模式以及主从
  • LLM基础5_从零开始实现 GPT 模型
  • CMIP6气候模式资料概览
  • 免费在线PDF转图片工具
  • gephi绘制网络拓扑图:批量给节点着色
  • nginx安装和部署
  • 免费PDF转图片工具
  • NVIDIA CUDA 技术详解:开启 GPU 并行计算的大门
  • CocosCreator 之 JavaScript/TypeScript和Java的相互交互
  • 创建型模式-单例模式
  • Python网页自动化Selenium中文文档
  • 24.解释器模式:思考与解读
  • 从零手写Java版本的LSM Tree (四):SSTable 磁盘存储
  • 9个数据分析指令为工作赋能
  • 升级背后:CANOPEN转MODBUS TCP技术如何实现精准控制?
  • 精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南
  • SFTrack:面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈
  • C# 表达式和运算符(求值顺序)
  • 李沐--动手学深度学习--GRU
  • RNN避坑指南:从数学推导到LSTM/GRU工业级部署实战流程
  • 人工智能与无人机的组合如何撕开俄空天军的 “核心“