Gemini 2.5 推动视频理解进入新时代
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
此外,该模型在一些高难度任务上(例如 YouCook2 的密集字幕生成、QVHighlights 的关键时刻检索)表现可媲美专业微调模型。而对于对成本敏感的应用,Gemini 2.5 Flash 则提供了极具竞争力的替代方案。
Gemini 2.5 的技术突破
Gemini 2.5 是首个能够原生结合音频、视觉、代码与其他数据格式的多模态模型,开启了全新的视频+代码处理能力。
应用实例一:将视频转化为交互式应用
Gemini 2.5 Pro 解锁了视频到交互式应用的全新可能。在 Google AI Studio 中,Video to Learning App 启动项目展示了如何使视频学习更具效果与互动性。
使用流程如下:
- 用户提供一个 YouTube 视频链接与分析提示;
- Gemini 2.5 Pro 分析视频并生成学习应用的详细规格说明;
- 同一个模型随后根据规格自动生成应用程序代码。
在教育与互动内容生成领域,Gemini 2.5 Flash 也展现出强大能力。
应用实例二:p5.js 动画自动生成
Gemini 2.5 Pro 还能从视频中自动提取信息并生成动画,例如:
- 输入 Project Astra 视频;
- 提示:“用 p5.js 创建一个动画,展示视频中出现的不同地标”;
- 模型根据视频顺序生成动画代码,自动还原地标出现的时间线。
应用实例三:视频中“关键时刻”的检索与描述
在处理长视频(如 Google Cloud Next '25 开幕演讲)时,Gemini 2.5 Pro 可基于音频和视觉信号准确识别并标注多个重要片段(如产品展示),其精度远超此前系统。
应用实例四:视频中的时间推理与计数
凭借其先进的片段识别能力,Gemini 2.5 Pro 还可执行细粒度的时间推理任务。例如:
- 在 Project Astra 视频中,模型准确统计主角使用手机的 17 次行为;
- 展示了其对视频中时间关系与动作频次的敏感识别能力。
构建视频智能应用的方式
Gemini 2.5 Pro 与 Flash 的视频理解功能现已支持:
- Google AI Studio
- Gemini API
- Vertex AI
其中,Gemini API 支持 YouTube 视频输入,允许开发者从全球数十亿视频中构建应用。
新版本 API 还加入了 “低分辨率媒体处理参数”,在约 200 万 token 上下文限制下,可处理 6 小时以上视频,大幅降低成本,同时保持与高精度模型相当的性能(如在 VideoMME 上达到 84.7% vs 85.2% 的准确率)。
团队表示,社区中已有许多富有创意的视频应用正在涌现,对未来的创新充满期待。Gemini 2.5 正在重新定义人类与视频的互动方式。