当前位置：首页 > news >正文

Gemini 2.5 推动视频理解进入新时代

news 2025/8/26 19:48:52

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

此外，该模型在一些高难度任务上（例如 YouCook2 的密集字幕生成、QVHighlights 的关键时刻检索）表现可媲美专业微调模型。而对于对成本敏感的应用，Gemini 2.5 Flash 则提供了极具竞争力的替代方案。

Gemini 2.5 的技术突破

Gemini 2.5 是首个能够原生结合音频、视觉、代码与其他数据格式的多模态模型，开启了全新的视频+代码处理能力。

应用实例一：将视频转化为交互式应用

Gemini 2.5 Pro 解锁了视频到交互式应用的全新可能。在 Google AI Studio 中，Video to Learning App 启动项目展示了如何使视频学习更具效果与互动性。

使用流程如下：

用户提供一个 YouTube 视频链接与分析提示；
Gemini 2.5 Pro 分析视频并生成学习应用的详细规格说明；
同一个模型随后根据规格自动生成应用程序代码。

在教育与互动内容生成领域，Gemini 2.5 Flash 也展现出强大能力。

应用实例二：p5.js 动画自动生成

Gemini 2.5 Pro 还能从视频中自动提取信息并生成动画，例如：

输入 Project Astra 视频；
提示：“用 p5.js 创建一个动画，展示视频中出现的不同地标”；
模型根据视频顺序生成动画代码，自动还原地标出现的时间线。

应用实例三：视频中“关键时刻”的检索与描述

在处理长视频（如 Google Cloud Next '25 开幕演讲）时，Gemini 2.5 Pro 可基于音频和视觉信号准确识别并标注多个重要片段（如产品展示），其精度远超此前系统。

应用实例四：视频中的时间推理与计数

凭借其先进的片段识别能力，Gemini 2.5 Pro 还可执行细粒度的时间推理任务。例如：

在 Project Astra 视频中，模型准确统计主角使用手机的 17 次行为；
展示了其对视频中时间关系与动作频次的敏感识别能力。

构建视频智能应用的方式

Gemini 2.5 Pro 与 Flash 的视频理解功能现已支持：

Google AI Studio
Gemini API
Vertex AI

其中，Gemini API 支持 YouTube 视频输入，允许开发者从全球数十亿视频中构建应用。

新版本 API 还加入了 “低分辨率媒体处理参数”，在约 200 万 token 上下文限制下，可处理 6 小时以上视频，大幅降低成本，同时保持与高精度模型相当的性能（如在 VideoMME 上达到 84.7% vs 85.2% 的准确率）。

团队表示，社区中已有许多富有创意的视频应用正在涌现，对未来的创新充满期待。Gemini 2.5 正在重新定义人类与视频的互动方式。

http://www.xdnf.cn/news/425035.html

相关文章：

多模态大语言模型arxiv论文略读（七十三）

二维差分（主要看原数组与差分数组的关系）

python: union()函数用法

解决 MinIO 对象存储“AccessDenied”问题及 Docker 操作全解析

《Docker 入门与进阶：架构剖析、隔离原理及安装实操》

【认知思维】沉没成本谬误：为何难以放弃已投入的资源

jenkins流水线常规配置教程!

libMemcached 库下载记录

SQL 中 INSTR 函数简介及截取地址应用

【python】—conda新建python3.11的环境报错

第五十七篇 Java接口设计之道：从咖啡机到智能家居的编程哲学

本地部署ollama及deepseek（linux版）

ssl 中 key 和pem 和crt是什么关系

配置 Spark 以 YARN 模式

笔试模拟 day9

深入理解Java编写泛型的方法！

杰理-701-手表sdk无法电脑连接经典蓝牙

微信小程序的开发及问题解决

游戏资源传输服务器

第三章初始化配置（一）

GitHub 趋势日报 (2025年05月12日)

电能质量扰动信号信号通过hilbert变换得到瞬时频率

2025.05.11拼多多机考真题算法岗-第一题

MCU开发学习记录14* - 8080学习与实践(HAL库) - 控制LCD屏幕显示中英文、图片 - STM32CubeMX

【Axure视频教程】中继器表格间批量控制和传值

艺考之神余嘉诚话剧舞台首秀《屈原辞》倾情演绎楚辞风骨

[Java][Leetcode middle] 45. 跳跃游戏 II

音频转文字-在线工具包及使用记录

提示词设计模板（基于最佳实践）

Datawhale PyPOTS时间序列5月第1次笔记