当前位置: 首页 > ai >正文

Veo 3 可以生成视频,并附带配乐

谷歌最新的视频生成 AI 模型 Veo 3 可以创建与其生成的剪辑相配的音频。

周二,在谷歌 I/O 2025 开发者大会上,谷歌发布了 Veo 3。该公司声称,这款产品可以生成音效、背景噪音,甚至对话,为其制作的视频增添配乐。谷歌表示,Veo 3 在生成的视频质量方面也比上一代Veo 2有所提升。

Veo 3 从周二开始在谷歌的 Gemini 聊天机器人应用程序中推出,供谷歌每月 249.99 美元的 AI Ultra 计划订阅者使用,可以通过文本或图像进行提示。

谷歌人工智能研发部门 DeepMind 的首席执行官 Demis Hassabis 在新闻发布会上表示:“我们首次摆脱了视频生成的无声时代。你可以给 Veo 3 一个描述人物和环境的提示,并根据你希望的声音效果提出对话建议。”

视频生成器工具的广泛普及,导致供应商数量激增,该领域已趋于饱和。包括 Runway、  Lightricks、Genmo、  Pika、  Higgsfield、Kling 和 Luma在内的初创公司,以及 OpenAI和阿里巴巴等科技巨头,都在快速发布各种模型。在很多情况下,不同模型之间几乎没有什么区别。

如果谷歌能够兑现其承诺,音频输出将成为 Veo 3 的一大差异化优势。人工智能声音生成工具并不 新鲜,用于创建视频 音效 的模型也并非新鲜事物。但据谷歌称,Veo 3 的独特之处在于它能够理解视频中的原始像素,并自动将生成的声音与视频片段同步。

Veo 3 的诞生很可能得益于DeepMind 早期在“视频转音频”人工智能领域的研究。去年 6 月,DeepMind 透露,他们正在开发一种人工智能技术,通过结合声音、对话记录和视频片段来训练模型,从而为视频生成配乐。

DeepMind 不愿透露 Veo 3 训练内容的具体来源,但 YouTube 的可能性很大。YouTube 是谷歌旗下的子公司,DeepMind 此前曾向 TechCrunch 透露,像 Veo 这样的谷歌模型“可能”会使用一些 YouTube 内容进行训练。

为了降低深度伪造的风险,DeepMind 表示正在使用其专有水印技术 SynthID 将隐形标记嵌入到 Veo 3 生成的帧中。 

尽管像谷歌这样的公司将 Veo 3 宣传为强大的创意工具,但许多艺术家对它们仍抱有警惕,这可以理解——它们可能会颠覆整个行业。代表好莱坞动画师和漫画家的工会——美国动画协会 (Animation Guild) 委托进行的一项 2024 年 研究 估计,到 2026 年,美国将有超过 10 万个电影、电视和动画工作岗位被人工智能取代。

谷歌今天还推出了 Veo 2 的新功能,其中包括一项功能,允许用户为模型提供人物、场景、物体和风格的图像,以提高一致性。最新的 Veo 2 可以理解摄像机的旋转、推拉和缩放等运动,并允许用户在视频中添加或删除对象,或扩展视频片段的帧率,例如将视频从纵向转换为横向。

谷歌表示,所有这些新的 Veo 2 功能将在未来几周内登陆其 Vertex AI API 平台。

http://www.xdnf.cn/news/7750.html

相关文章:

  • springboot项目读取dll
  • RT_Thread——快速入门
  • 电子电路:怎么理解放大电路中集电极电流Ic漂移?
  • 如何使用Java生成pdf报告
  • 面向恶劣条件的道路交通目标检测----大创自用(当然你也可以在里面学到很多东西)
  • 如何使用AI搭建WordPress网站
  • SAP-ABAP:ABAP异常处理与安全工程的融合 —— 构建防注入、防泄漏、合规审计的防御性编程体系
  • C# Prism框架详解:构建模块化WPF应用程序
  • 轩辕杯Wp
  • 【Java】泛型在 Java 中是怎样实现的?
  • java day14
  • debian系统redis-dump安装
  • Vite + Vue 工程中,为什么需要关注 `postcss.config.ts`?
  • 如何用JAVA手写一个Tomcat
  • c#基础03(运算符)
  • LeetCode 3355.零数组变换 I:差分数组
  • 34、React Server Actions深度解析
  • 07 接口自动化-用例管理框架之pytest单元测试框架
  • CSS:margin的塌陷与合并问题
  • 每日Prompt:实物与手绘涂鸦创意广告
  • MySQL5.7导入MySQL8.0的文件不成功
  • flutter 常用组件详细介绍、屏幕适配方案
  • GPU加速Kubernetes集群助力音视频转码与AI工作负载扩展
  • PostgreSQL使用
  • Canvas进阶篇:鼠标交互动画
  • Java 安全SPEL 表达式SSTI 模版注入XXEJDBCMyBatis 注入
  • 2025年渗透测试面试题总结-快手[实习]安全工程师(题目+回答)
  • ToDesk云电脑、并行智算云与顺网云AI支持能力深度实测报告
  • 25、工业防火墙 - 工控网络保护 (模拟) - /安全与维护组件/industrial-firewall-dcs-protection
  • 遨游科普:三防平板有哪些品牌?哪个品牌值得推荐?