当前位置: 首页 > news >正文

Gemini 2.5 推动视频理解进入新时代

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

此外,该模型在一些高难度任务上(例如 YouCook2 的密集字幕生成、QVHighlights 的关键时刻检索)表现可媲美专业微调模型。而对于对成本敏感的应用,Gemini 2.5 Flash 则提供了极具竞争力的替代方案。


Gemini 2.5 的技术突破

Gemini 2.5 是首个能够原生结合音频、视觉、代码与其他数据格式的多模态模型,开启了全新的视频+代码处理能力。


应用实例一:将视频转化为交互式应用

Gemini 2.5 Pro 解锁了视频到交互式应用的全新可能。在 Google AI Studio 中,Video to Learning App 启动项目展示了如何使视频学习更具效果与互动性。

使用流程如下:

  1. 用户提供一个 YouTube 视频链接与分析提示;
  2. Gemini 2.5 Pro 分析视频并生成学习应用的详细规格说明;
  3. 同一个模型随后根据规格自动生成应用程序代码。

在教育与互动内容生成领域,Gemini 2.5 Flash 也展现出强大能力。


应用实例二:p5.js 动画自动生成

Gemini 2.5 Pro 还能从视频中自动提取信息并生成动画,例如:

  • 输入 Project Astra 视频;
  • 提示:“用 p5.js 创建一个动画,展示视频中出现的不同地标”;
  • 模型根据视频顺序生成动画代码,自动还原地标出现的时间线。


应用实例三:视频中“关键时刻”的检索与描述

在处理长视频(如 Google Cloud Next '25 开幕演讲)时,Gemini 2.5 Pro 可基于音频和视觉信号准确识别并标注多个重要片段(如产品展示),其精度远超此前系统。


应用实例四:视频中的时间推理与计数

凭借其先进的片段识别能力,Gemini 2.5 Pro 还可执行细粒度的时间推理任务。例如:

  • 在 Project Astra 视频中,模型准确统计主角使用手机的 17 次行为
  • 展示了其对视频中时间关系与动作频次的敏感识别能力。


构建视频智能应用的方式

Gemini 2.5 Pro 与 Flash 的视频理解功能现已支持:

  • Google AI Studio
  • Gemini API
  • Vertex AI

其中,Gemini API 支持 YouTube 视频输入,允许开发者从全球数十亿视频中构建应用。

新版本 API 还加入了 “低分辨率媒体处理参数”,在约 200 万 token 上下文限制下,可处理 6 小时以上视频,大幅降低成本,同时保持与高精度模型相当的性能(如在 VideoMME 上达到 84.7% vs 85.2% 的准确率)。


团队表示,社区中已有许多富有创意的视频应用正在涌现,对未来的创新充满期待。Gemini 2.5 正在重新定义人类与视频的互动方式。

http://www.xdnf.cn/news/425035.html

相关文章:

  • 多模态大语言模型arxiv论文略读(七十三)
  • 二维差分(主要看原数组与差分数组的关系)
  • python: union()函数用法
  • 解决 MinIO 对象存储“AccessDenied”问题及 Docker 操作全解析
  • 《Docker 入门与进阶:架构剖析、隔离原理及安装实操》
  • 【认知思维】沉没成本谬误:为何难以放弃已投入的资源
  • jenkins流水线常规配置教程!
  • libMemcached 库下载记录
  • SQL 中 INSTR 函数简介及 截取地址应用
  • 【python】—conda新建python3.11的环境报错
  • 第五十七篇 Java接口设计之道:从咖啡机到智能家居的编程哲学
  • 本地部署ollama及deepseek(linux版)
  • ssl 中 key 和pem 和crt是什么关系
  • 配置 Spark 以 YARN 模式
  • 笔试模拟 day9
  • 深入理解Java编写泛型的方法!
  • 杰理-701-手表sdk无法电脑连接经典蓝牙
  • 微信小程序的开发及问题解决
  • 游戏资源传输服务器
  • 第三章 初始化配置(一)
  • GitHub 趋势日报 (2025年05月12日)
  • 电能质量扰动信号信号通过hilbert变换得到瞬时频率
  • 2025.05.11拼多多机考真题算法岗-第一题
  • MCU开发学习记录14* - 8080学习与实践(HAL库) - 控制LCD屏幕显示中英文、图片 - STM32CubeMX
  • 【Axure视频教程】中继器表格间批量控制和传值
  • 艺考之神余嘉诚话剧舞台首秀《屈原辞》 倾情演绎楚辞风骨
  • [Java][Leetcode middle] 45. 跳跃游戏 II
  • 音频转文字-在线工具包及使用记录
  • 提示词设计模板(基于最佳实践)
  • Datawhale PyPOTS时间序列5月第1次笔记