当前位置: 首页 > news >正文

SkyReels-V2:开启无限时长电影生成新时代

AI 在视频生成领域的突破尤为引人注目,为内容创作带来了全新的可能性。而 SkyReels-V2 的问世,更是如同一场革命,彻底颠覆了人们对视频生成技术的认知,开启了无限时长电影生成的新时代。

一、背景与挑战

回顾视频生成技术的发展历程,过去一年在扩散模型和自回归框架的推动下,确实取得了显著进展。然而,这一领域依然面临着诸多严峻挑战。现有技术在追求稳定视觉质量时,常常不得不牺牲运动动态效果,仿佛陷入了一种两难的困境。为了实现高分辨率,视频时长被限制在极为有限的范围内,通常仅为 5 - 10 秒,这对于想要讲述完整故事、展现丰富情节的创作者来说,无疑是巨大的束缚。更为关键的是,通用多模态大语言模型(MLLM)在解读电影语法方面存在严重不足,如镜头构图、演员表情和摄像机运动等专业元素,使得生成的视频缺乏镜头感知能力,难以达到专业电影的水准。这些相互交织的限制,如同坚固的壁垒,阻碍着长视频的逼真合成以及专业电影风格的生成,让视频生成技术在迈向更高层次的道路上举步维艰。

二、SkyReels-V2 的技术突破

(一)全面的影视级视频理解模型:SkyCaptioner-V1

为了攻克提示词遵循能力这一难关,SkyReels 团队精心设计了一种结构化的视频表示方法。这种方法巧妙地将多模态 LLM 的一般描述与子专家模型的详细镜头语言相结合,犹如为视频理解搭建了一座精准的桥梁。通过它,模型能够敏锐地识别视频中的主体类型、外观、表情、动作和位置等丰富信息。同时,团队借助人工标注和模型训练的双重力量,不断磨砺模型对镜头语言的理解能力,使其日益精进。

在此基础上,团队成功训练出统一的视频理解模型 SkyCaptioner-V1。它宛如一位精通视频语言的大师,能够高效地理解视频数据,并根据原始结构信息生成多样化的描述。无论是视频的一般内容,还是电影场景中那些微妙而专业的镜头语言,SkyCaptioner-V1 都能精准捕捉,从而极大地提升了生成视频对提示词的遵循程度。值得欣喜的是,这个强大的模型现已开源,如同为广大开发者和创作者打开了一扇通往视频理解新世界的大门,让更多人能够从中受益,推动整个视频生成领域的技术进步。在视频理解测试集上,SkyCaptioner-V1 的综合性能表现卓越,超越了当前最先进(SOTA)的模型,充分彰显了其技术实力和创新价值。

(二)针对运动的偏好优化

现有视频生成模型在运动质量方面的表现一直差强人意,其根本原因在于优化目标未能全面、充分地考虑时序一致性和运动合理性。SkyReels 团队迎难而上,通过强化学习(RL)训练这一有力手段,巧妙运用人工标注和合成失真数据,对模型进行精心调校,成功解决了动态扭曲、不合理等长期困扰该领域的问题。为了进一步降低数据标注成本,提高训练效率,团队还独具匠心地设计了一个半自动数据收集管道。这个管道如同一个高效的数据生产车间,能够快速、精准地生成偏好对比数据对,为模型的训练提供源源不断的优质数据支持。

经过这一系列的创新优化,SkyReels-V2 在运动动态方面实现了质的飞跃。它所生成的视频内容流畅自然、逼真生动,仿佛将现实世界的运动完美复刻到了屏幕之上,能够充分满足电影制作等对高质量运动动态有着严苛要求的应用场景。无论是激烈的动作场面,还是细腻的人物情感表达,SkyReels-V2 都能通过精准的运动模拟,为观众带来身临其境的视觉体验。

(三)高效的扩散强迫框架

实现长视频生成能力一直是视频生成领域的一大难题,而 SkyReels-V2 通过提出一种创新的扩散强迫(diffusion forcing)后训练方法,成功攻克了这一难关。与传统的从零开始训练扩散强迫模型的方式不同,团队另辟蹊径,通过微调预训练的扩散模型,巧妙地将其转化为扩散强迫模型。这一创新性的举措犹如四两拨千斤,不仅大幅减少了训练成本,降低了技术实现的难度,还显著提高了生成效率,为长视频生成技术的发展开辟了一条全新的道路。

在具体实现过程中,团队采用了非递减噪声时间表,这一策略如同为长视频生成的复杂运算找到了一把高效的钥匙。它将连续帧的去噪时间表搜索空间从极其庞大的 O (1e48) 大幅降低到 O (1e32),使得模型在处理长视频生成任务时能够更加高效、精准地运行。凭借这一创新技术,SkyReels-V2 得以突破视频时长的限制,实现几乎无限时长的高质量视频内容生成。从此,创作者们可以尽情发挥自己的想象力,讲述更长、更精彩的故事,为观众呈现更加丰富、完整的视觉盛宴。

(四)渐进式分辨率预训练与多阶段后训练优化

为了打造一个真正专业的影视生成模型,SkyReels 团队构建了一个多阶段质量保证框架,如同精心打造一座宏伟的建筑,从多个方面夯实模型的基础。这个框架整合了来自三个主要来源的数据,为模型的训练提供了丰富而全面的营养。

通用数据集是模型知识储备的基石,它整合了 Koala-36M、HumanVid 等开源资源,以及从互联网精心爬取的大量额外视频资源。这些丰富多样的视频素材涵盖了各种各样的场景和动作,如同一个庞大的视觉素材库,为模型提供了广泛的基础认知。

自收集媒体则是模型学习影视风格和叙事结构的宝库。团队收集了 280,000 多部电影和 800,000 多集电视剧,这些作品来自 120 多个国家,估计总时长超过 620 万小时。如此海量且丰富的影视数据,让模型得以深入学习不同国家、不同风格的电影叙事方式、镜头语言和艺术表现手法,从而为生成具有专业电影质感的视频奠定了坚实的基础。

艺术资源库则是提升模型视觉质量的关键。团队从互联网获取了大量高质量的视频资产,这些资产如同珍贵的艺术品,确保模型生成的内容在视觉清晰度、色彩准确性和结构完整性等方面达到专业标准,为观众带来极致的视觉享受。

原始数据集规模达到了惊人的亿级(O (100M)),不同子集根据质量要求在各个训练阶段被合理运用。此外,团队还收集了亿级的概念平衡图像数据,这些图像数据如同催化剂,加速了早期训练中模型生成能力的建立。在如此庞大而优质的数据基础上,团队首先通过渐进式分辨率预训练,如同搭建房屋的框架一样,建立起基础视频生成模型。然后,通过四个关键阶段的后续训练增强,逐步提升模型的性能。

初始概念平衡的监督微调(SFT)阶段,模型通过在概念平衡的数据集上进行微调,如同为房屋进行初步的装修,为后续的优化工作提供了良好的初始化条件。运动特定的强化学习(RL)训练阶段,模型如同一位运动员进行专项训练,通过偏好优化不断提升运动动态质量,使生成的视频运动更加流畅、自然。扩散强迫框架(DF)阶段,模型成功掌握了长视频生成的秘诀,实现了视频时长的突破。高质量 SFT 阶段,模型则对生成视频的视觉保真度进行最后的打磨,使其达到专业影视级别的视觉效果。

通过结合富含影视级别数据和多阶段优化方法,SkyReels 团队确保了 SkyReels-V2 在资源有限的情况下,能够高效、稳步地提升多方面的表现,最终达到影视级视频生成的卓越水准。

三、性能评估

(一)SkyReels-Bench 评估

为了全面、精准地评估 SkyReels-V2 的性能,SkyReels 团队精心构建了 SkyReels-Bench 用于人类评估。这个评估基准包含了 1020 个精心设计的文本提示词,从四个关键维度对模型进行系统性评估,宛如从不同角度对一件艺术品进行品鉴。

在指令遵循维度,SkyReels-V2 展现出了卓越的能力。无论是复杂的运动指令、对主体特征的精确描述,还是空间关系的准确把握、镜头类型的合理运用、表情的细腻呈现,甚至是摄像机运动的精准控制,SkyReels-V2 都能完美遵循提示词的要求,生成符合预期的视频内容,其表现远超基线方法。

在运动质量维度,SkyReels-V2 同样表现出色。生成的视频在运动动态性、流畅性和物理合理性方面都达到了极高的水准。视频中的物体和人物运动自然而多样,仿佛拥有自己的生命力,没有丝毫的卡顿或不自然之处,为观众带来了流畅而真实的视觉体验。

一致性维度是衡量视频生成质量的重要标准之一,SkyReels-V2 在这方面也毫不逊色。主体和场景在整个视频中始终保持高度一致,运动过程中的细节变化也能保持高保真度,让观众在观看视频时不会感到任何突兀或不协调的地方。

视觉质量维度上,SkyReels-V2 生成的视频在视觉清晰度、色彩准确性和结构完整性上均达到了令人惊叹的高水平。视频中的每一个画面都清晰锐利,色彩鲜艳而真实,结构稳定而合理,没有明显的扭曲或损坏,为观众呈现了一场视觉的盛宴。

在 SkyReels-Bench 的 T2V 多维度人工评测集下,SkyReels-V2 凭借其出色的表现,在指令遵循和一致性方面获得了最高水准的评价,同时在视频质量和运动质量上也稳居第一梯队,充分证明了其在视频生成领域的领先地位。

(二)VBench1.0 结果

除了人类评估,SkyReels 团队还利用开源的 V-Bench 进行自动化评估,如同从另一个专业视角对模型进行全面检测。在 VBench1.0 自动化评估中,SkyReels-V2 再次展现出了强大的实力。在总分(83.9%)和质量分(84.7%)上,SkyReels-V2 均优于所有参与对比的模型,包括备受瞩目的 HunyuanVideo-13B 和 Wan2.1-14B 等。这一结果进一步验证了 SkyReels-V2 在生成高保真、指令对齐的视频内容方面的卓越能力,为其在实际应用中的广泛推广提供了有力的技术支持和数据保障。

在 V-bench1.0 的长 prompt 版本下,SkyReels-V2 更是一骑绝尘,超越了所有的开源模型,再次证明了其在复杂提示词处理和长视频生成方面的独特优势。

四、应用场景

(一)故事生成

SkyReels-V2 拥有强大的故事生成能力,能够将创作者脑海中的故事构思转化为生动的视频内容。它就像一位才华横溢的导演,能够根据文本提示,精心编排每一个镜头、每一个动作、每一个表情,生成理论上无限时长的视频。通过创新的滑动窗口方法,模型在生成新帧时会巧妙地参考之前生成的帧和文本提示,如同在编织一张紧密的故事网。这种方法不仅实现了时间上的自由扩展,让创作者能够讲述更长、更复杂的故事,还能生成具有连贯叙事的长镜头视频,使观众能够沉浸在一个完整而精彩的故事世界中。无论是一部扣人心弦的悬疑片、一段浪漫动人的爱情故事,还是一部充满奇幻色彩的冒险之旅,SkyReels-V2 都能将其生动地呈现在观众眼前,为影视创作带来了全新的可能性。

(二)图生视频

SkyReels-V2 提供了两种独特的图像到视频(I2V)生成方法,为创作者提供了更多的创作灵感和实现途径。这两种方法就像一对神奇的画笔,能够将静态的图像赋予生命,使其动起来。创作者可以根据自己的需求和创意,选择合适的方法将一幅幅精美的图片转化为动态的视频。无论是将一幅美丽的风景图变成一段展现四季更迭的动态影像,还是将一幅人物肖像转化为一段记录人物生活点滴的视频故事,SkyReels-V2 都能轻松实现,为图像创作带来了全新的活力和表现力。

(三)运镜专家

在标注摄像机运动方面,SkyReels-V2 堪称一位 “运镜专家”。它能够精准地理解和运用各种摄像机运动方式,如推、拉、摇、移、跟等,为视频增添丰富的视觉效果和动态感。通过对镜头语言的深刻理解和精准控制,SkyReels-V2 生成的视频能够像专业电影一样,通过巧妙的运镜引导观众的视线,营造出紧张、悬疑、浪漫等各种不同的氛围,让观众仿佛置身于电影的世界中,与角色一同感受故事的起伏和情感的波澜。无论是拍摄一场激烈的动作场面,还是展现一段细腻的情感交流,SkyReels-V2 都能通过恰到好处的运镜,为视频赋予独特的艺术魅力。

(四)多主体一致性视频生成(SkyReels-A2)

基于 SkyReels-V2 基座模型,昆仑万维研发了 SkyReels-A2 方案,这一方案在多主体一致性视频生成方面取得了重大突破。它创新性地提出了一种新的多元素到视频(E2V)任务,能够将任意视觉元素,如人物、物体和背景,巧妙地组合成由文本提示引导的连贯视频。同时,SkyReels-A2 能够确保对每个元素的参考图像的高保真度,让生成的视频中的每一个元素都栩栩如生,与整体场景完美融合。这一功能在短剧、音乐视频和虚拟电商内容创作等领域具有巨大的应用潜力。在短剧创作中,创作者可以轻松地将不同的角色、场景和道具组合在一起,快速生成情节丰富、画面精美的短剧作品;在音乐视频制作中,能够根据音乐的节奏和情感,将各种视觉元素有机结合,打造出极具感染力的音乐视频;在虚拟电商领域,能够为商品展示带来更加生动、丰富的视觉效果,吸引消费者的注意力,提升销售转化率。作为首个商业级 E2V 开源模型,SkyReels-A2 在 E2V 评估 Benchmark A2-Bench 中的结果表明,其在一致性和质量维度上的评估与闭源模型相当,为广大开发者和创作者提供了一个强大而又开源的创作工具,推动了多主体一致性视频生成技术的广泛应用和发展。

五、未来展望

SkyReels-V2 的发布和开源,无疑是 AI 视频生成领域的一个重要里程碑。它不仅在技术上实现了前所未有的突破,为创作者提供了强大的创作工具,还通过开源的方式,促进了整个行业的技术交流和创新发展。

展望未来,昆仑万维计划进一步扩展框架,支持更多的输入模态,如音频和动作。这将如同为视频生成技术插上更加丰满的翅膀,使其能够实现更加多元化和智能化的创作。想象一下,在未来的视频创作中,创作者不仅可以通过文本和图像来引导视频生成,还能加入音频元素,让视频拥有更加生动的音效和配乐;甚至可以通过动作捕捉技术,将真实的动作融入到视频中,使生成的视频更加贴近现实、富有生命力。通过构建一个统一的视频生成系统,SkyReels-V2 有望支持更广泛的应用场景,从影视创作到教育教学、从广告宣传到虚拟现实,它将如同一个万能的创作引擎,为各个领域带来全新的创意和活力。

随着技术的不断进步和完善,我们有理由相信,SkyReels-V2 将在未来的视频生成领域发挥更加重要的作用,推动 AI 视频创作不断向前发展,为我们带来更多精彩绝伦的视觉体验,开启一个全新的影视创作时代。无论是专业的影视创作者,还是充满创意的普通爱好者,都将在 SkyReels-V2 的帮助下,实现自己的创作梦想,让想象变为现实。让我们共同期待 SkyReels-V2 在未来的精彩表现,见证 AI 视频生成技术的无限可能。

http://www.xdnf.cn/news/549955.html

相关文章:

  • 元宇宙中的虚拟经济:机遇与挑战
  • centos7.6安装桌面并使用mstsc连接
  • WHAT - CSS 中的 min-height
  • 小白入门FPGA设计,如何快速学习?
  • Python虚拟环境再PyCharm中自由切换使用方法
  • 【周输入】517周阅读推荐-1
  • java 异常验证框架validation,全局异常处理,请求验证
  • Power BI入门之建模
  • C 语言学习笔记(指针1)
  • 十五、面向对象底层逻辑-BeanDefinitionRegistryPostProcessor接口设计
  • CentOS 7上搭建高可用BIND9集群指南
  • Visual Studio 2022 无法编译.NET 9 项目的原因和解决方法
  • CI/CD的演进之路
  • 如何利用 Java 爬虫根据 ID 获取某手商品详情:实战指南
  • 最大和---记忆化搜索
  • Python中列表相关操作
  • 【生活tips】保存系统随机的壁纸
  • 逆元(费马,扩展欧几里得)
  • PostgreSQL 初体验
  • 基于线性回归的数据预测
  • git学习与使用(远程仓库、分支、工作流)
  • JAVA面向对象——对象和类的基本语法
  • 游戏开发实战(二):Python复刻「崩坏星穹铁道」嗷呜嗷呜事务所---源码级解析该小游戏背后的算法与设计模式【纯原创】
  • Spring Boot 监听器(Listeners)详细教程
  • 为什么以太网一端配置为自协商(Auto-negotiation),另一端强制为**全双工(Full Duplex)**时,最终状态是自协商端降级为 半双工
  • Spring Boot中如何使用RabbitMQ?
  • 离线环境破局:聚客AI无外网部署Dify的依赖镜像打包与增量更新方案
  • 第三十天打卡
  • 3D几何建模引擎3D ACIS Modeler核心功能深度解读
  • ES(Elasticsearch) 基本概念(一)