当前位置：首页 > news >正文

Google Gemini 2.5 Flash Image（Nano-Banana）震撼登场！人人都能免费用的AI修图神器！

news 2025/9/2 8:53:27

Gemini 2.5 Flash Image（代号 Nano Banana）是 Google 推出的一款最先进的图像生成和编辑模型。它在速度和成本效益的基础上，显著提升了图像质量和创意控制能力。该模型已通过 Gemini API 和 Google AI Studio 面向开发者开放，并通过 Vertex AI 面向企业用户开放。

主要主题与重要功能

1. 图像生成和编辑的新基准

最先进（State-of-the-art）：Gemini 2.5 Flash Image 被描述为“最先进的图像生成和编辑模型”。
Nano Banana 代号：该模型内部被称为“Nano Banana”，其命名源于一位产品经理在深夜的灵感，并被认为是模因的开始。
用户反馈驱动的改进：早期 Gemini 2.0 Flash 模型虽因低延迟和易用性受到好评，但也收到了关于图像质量和创意控制不足的反馈。Gemini 2.5 Flash Image 正是针对这些痛点进行了改进，重点提升了“视觉质量”、“指令遵循”和“自然编辑”。
成本效益：该模型定价为每百万输出 token 30.00 美元，每张图像约 1290 个输出 token（即每张图像 0.039 美元），与其他 Gemini 2.5 Flash 模态保持一致。

2. Google AI Studio 的“构建模式”更新

简化开发流程：Google AI Studio 的“构建模式”经过重大更新，旨在让开发者更轻松地使用 Gemini 2.5 Flash Image 进行构建。
“Vibe Coding”（氛围编码）：一个核心理念，指通过简单的提示语即可快速构建、修改和迭代 AI 应用程序。例如，Ammaar 仅通过“几个提示”就创建了“Past Forward”应用。
一键部署与 GitHub 集成：开发者可以直接从 AI Studio 部署应用程序，或将代码保存到 GitHub 进行管理。Kat 演示了如何发布链接和创建新的 GitHub 仓库。
AI 助手与错误处理：AI Studio 具有“代码助手”功能，可以根据提示生成应用，并在出现错误时自动尝试修复。
用户界面 (UI) 改进：AI Studio 的 UI 进行了大量更新，提供更多空间用于应用程序预览和代码助手，并支持在代码视图和预览视图之间切换。此外，模型选择器和会话时间线等功能也得到改进，提升了用户体验。

3. 模型核心能力

角色一致性 (Character Consistency)：这是该模型的一项“根本性挑战”突破，允许用户在不同环境、角度和设置中保持角色或对象的相同外观。“如果你看到了原始图像，当你把它外推到一堆其他图像时，这就是模型角色一致性的一部分真正闪耀的地方。”（Logan Kilpatrick）
应用示例：“Past Forward”应用（后改为“Future Forward”）可以将用户形象转换为不同年代或未来风格，同时保持人物一致。
视觉模板遵循：模型擅长遵循视觉模板，可用于创建房地产列表卡、员工徽章或产品模型。
基于提示的图像编辑 (Prompt-based Image Editing)：利用自然语言进行有针对性的图像转换和精确的局部编辑。
应用示例：“AI 动力照片编辑”应用可以根据提示（如“添加胡子”、“添加高帽”、“添加单片眼镜”）修改图像细节。
高速迭代：“能够持续迭代并能在五六秒内完成这些操作，让它变得非常有趣。”（Logan Kilpatrick）这是 Flash 模型速度优势的关键体现。
原生世界知识 (Native World Knowledge)：Gemini 2.5 Flash Image 受益于 Gemini 的世界知识，使其能够更好地理解和生成具有现实世界语义的图像，而非仅仅是美学图像。
应用示例：“Home Canvas”应用允许用户上传产品和场景图片，然后将产品自然地融入场景中，如将枕头或猫咪放置在沙发上，并根据光线添加阴影。
教育辅助：模型能够读取和理解手绘图表，回答现实世界问题，并遵循复杂的编辑指令。
多图像融合 (Multi-image Fusion)：模型可以理解并合并多个输入图像。
应用示例：“广告可视化工具”应用允许用户上传产品图像，并将其放置在不同的广告场景和背景中，如城市广告牌或伦敦巴士站。
“虚拟试穿 (Virtual Try-On)”：允许用户上传自己的照片和服装物品照片，然后可视化试穿效果。

4. 开放与协作

开发者生态系统：该模型通过 Gemini API 和 Google AI Studio 对开发者开放。
合作伙伴：OpenRouter.ai 和 fal.ai 已与 Google 合作，将 Gemini 2.5 Flash Image 提供给更广泛的开发者社区。OpenRouter.ai 首次集成了图像生成模型。
SynthID 水印：所有使用 Gemini 2.5 Flash Image 创建或编辑的图像都将包含“隐形 SynthID 数字水印”，以识别其为 AI 生成或编辑。

5. 未来发展方向与已知限制

改进领域：
长文本渲染：Nicole Brichtova 提到，模型在处理通用文本（如生成餐厅菜单并让模型自行构思文本）方面仍有不足，这是未来的重点改进方向。
更可靠的角色一致性：尽管已有显著提升，但仍将继续努力。
事实性表示：尤其是在信息图表等应用中，确保图像不仅美观，而且信息准确。
风格化：某些风格表现良好，但并非所有风格都能保持一致性。
用户反馈的重要性：Google 积极鼓励用户通过开发者论坛或 X 平台提供反馈，以帮助团队改进模型。

演示应用示例

演示网址：https://aistudio.google.com/

上传两张图片

输入提示词：图中的两个人在脱口秀大会的舞台上举起图2的奖杯，发型和样貌不变

看下图细节：（仅供参考，如侵权请告知）

继续指定第一排抱上宠物，再看下图细节

总结

Gemini 2.5 Flash Image 的发布标志着图像生成和编辑领域向前迈出了重要一步，特别是在角色一致性、基于提示的精确编辑、世界知识融合和多图像融合方面。Google AI Studio 提供的“氛围编码”体验和更新的 UI 旨在赋能开发者轻松构建和部署创新应用。虽然模型仍有改进空间（如长文本渲染和事实性表示），但其提供的速度、质量和创意控制能力已为开发者打开了新的可能性。

查看全文

http://www.xdnf.cn/news/1421677.html