当前位置: 首页 > news >正文

国产AI新突破!全球首款无限时长电影生成模型SkyReels-V2开源:AI视频进入长镜头时代!

在 AI 技术日新月异的今天,我们再次见证了历史性的突破。

昆仑万维 SkyReels 团队于近日正式发布了全球首款支持无限时长的电影生成模型——SkyReels-V2并免费开源这无疑为 AI 视频领域掀开了崭新的一页,标志着 AI 视频正式迈入长镜头时代

图片

突破时长限制:AI视频的里程碑式跨越

SkyReels-V2 模型集成了多模态大语言模型(MLLM)、多阶段预训练、强化学习以及创新的扩散强迫(Diffusion-forcing)框架,实现了在提示词遵循、视觉质量、运动动态以及视频时长等方面的全面突破。

此前,视频生成大模型往往存在时长的限制。因此,生成的视频大多为几秒到一分钟左右的短视频,以 Sora 这样的行业标杆为例,能生成 60 秒视频,但受限于闭源和物理规律模拟的不足

而 SkyReels-V2 通过扩散强迫框架多阶段优化技术,首次实现单镜头 30 秒、40 秒的流畅输出,并通过Extend无限延伸,彻底打破时长枷锁

那么 SkyReels-V2 是如何实现无限时长的呢?

举个例子,我们可以先通过一句提示词生成 30 秒视频,然后基于这个视频,通过Extend增加下一个镜头的提示词:

图片

视频将在原有内容不变的基础上,增加几秒的片段,最后,通过一次次的提示,不断增加视频时长,直至生成一个具有电影级效果的长视频。

这一技术突破不仅将 AI 视频生成从几秒的碎片化动态推向了影视级长镜头时代,更在提示词理解、运动连贯性、镜头语言表达等维度实现了质的飞跃。

在视觉质量上,SkyReels-V2 达到了好莱坞级别的画质,为观众带来了极致的观影体验。

图片

【图片来源于网络,侵删】

而在运动动态方面,通过强化学习训练,模型能够生成流畅且逼真的视频内容,满足电影制作中对高质量运动动态的需求。

值得一提的是,SkyReels-V2 支持无限时长的视频生成这一特性彻底打破了现有技术在视频时长上的限制,为长视频的逼真合成和专业电影风格的生成提供了可能性。

技术内核:如何实现电影级理解?

为了提高提示词遵循能力,团队设计了一种结构化的视频表示方法,将多模态 LLM 的一般描述与子专家模型的详细镜头语言相结合。这种方法能够识别视频中的主体类型、外观、表情、动作和位置等信息,从而更准确地理解并生成符合要求的视频内容。

传统 AI 视频模型依赖通用多模态大语言模型(MLLM),难以解析电影专业术语。为此,团队训练了一个统一的视频理解模型 SkyCaptioner-V1,它能够高效地理解视频数据,生成符合原始结构信息的多样化描述。这相当于让 AI 首次用导演的视角,根据文本指令生成具备专业叙事感的画面。

在视频理解测试集上的模型综合性能比较中,SkyCaptioner-V1 表现优异,超越了 SOTA 的模型。

图片

在运动质量优化方面,SkyReels-V2 采用了强化学习训练,通过偏好优化提升运动动态质量。同时,为了降低数据标注成本,团队设计了一个半自动数据收集管道,能够高效地生成偏好对比数据对,进一步提升模型在运动动态方面的

效果。

图片

同时,为了实现长视频生成能力,SkyReels-V2 提出了一种创新的扩散强迫后训练方法。通过微调预训练的扩散模型,并将其转化为扩散强迫模型。这一创新使得 SkyReels-V2 能够生成几乎无限时长的高质量视频内容,为长视频的逼真合成提供了强有力的技术支持。

SkyReels-V2 的开源,为 AI 创作带来了新的转变。

当 AI 模型能够完成难度更高的细节处理,且视频时长不受限制时,人类就可以将更多精力投入到更高层次的思维活动中,从而创作出更能体现人类独特性的艺术作品。

AI视频的长镜头时代已经到来

SkyReels-V2 的发布和开源,标志着 AI 视频迈入了长镜头时代。这一突破性的技术成果不仅为观众带来了更加逼真和流畅的观影体验,还为创作者提供了更加便捷和高效的创作工具。

随着技术的不断进步和应用场景的不断拓展,相信 AI 视频将在未来发挥更加重要的作用和影响,AI 创作的边界也将不断被打破。

http://www.xdnf.cn/news/57763.html

相关文章:

  • LangChain + 文档处理:构建智能文档问答系统 RAG 的实战指南
  • 微服务划分的思考
  • 量子计算在金融领域的应用与展望
  • Unity接入安卓SDK(3)厘清Gradle的版本
  • AI助理iOS开发:Copilot for Xcode 下载与安装全指南
  • Java 自动装箱与拆箱:基本数据类型与包装类的转换
  • Ansys electronics安装多版本simulink打开s-function冲突解决方法
  • 用Mac M4构建多架构Docker镜像指南
  • CSS 中实现 div 居中有以下几种常用方法
  • 解决Chrome浏览器访问https提示“您的连接不是私密连接”的问题
  • Android 15强制edge-to-edge全面屏体验
  • (7)NodeJS的使用与NPM包管理器
  • 1.2软考系统架构设计师:系统架构的定义与作用 - 练习题附答案及超详细解析
  • 23种设计模式-结构型模式之外观模式(Java版本)
  • Spark和Hadoop的区别和联系
  • 深入理解 DML 和 DQL:SQL 数据操作与查询全解析
  • Java BIO、NIO、AIO、Netty面试题(已整理全套PDF版本)
  • 【NVIDIA】Isaac Sim 4.5.0 加载 Franka 机械臂
  • CMake execute_process用法详解
  • 【Spring Boot基础】MyBatis的基础操作:日志、增删查改、列名和属性名匹配 -- 注解实现
  • 使用 inobounce 解决 iOS 皮筋效果导致的无法下拉刷新
  • pytest-项目结构
  • 管道位移自动化监测方案
  • neo4j-community-3.5.5-unix.tar.gz安装
  • leetcode 647. Palindromic Substrings
  • 从规则到大模型:知识图谱信息抽取实体NER与关系RE任务近10年演进发展详解
  • DSRAM介绍
  • 美创科技20周年庆典顺利举行
  • npm -v npm : 无法加载文件 C:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本。来看看永久修改执行策略!
  • Pytorch的极简transformer用于时间序列预测