当前位置: 首页 > news >正文

Google Gemini 2.5 Flash Image(Nano-Banana)震撼登场!人人都能免费用的AI修图神器!

Gemini 2.5 Flash Image(代号 Nano Banana)是 Google 推出的一款最先进的图像生成和编辑模型。它在速度和成本效益的基础上,显著提升了图像质量和创意控制能力。该模型已通过 Gemini API 和 Google AI Studio 面向开发者开放,并通过 Vertex AI 面向企业用户开放。

主要主题与重要功能

1. 图像生成和编辑的新基准

  • 最先进(State-of-the-art):Gemini 2.5 Flash Image 被描述为“最先进的图像生成和编辑模型”。
  • Nano Banana 代号:该模型内部被称为“Nano Banana”,其命名源于一位产品经理在深夜的灵感,并被认为是模因的开始。
  • 用户反馈驱动的改进:早期 Gemini 2.0 Flash 模型虽因低延迟和易用性受到好评,但也收到了关于图像质量和创意控制不足的反馈。Gemini 2.5 Flash Image 正是针对这些痛点进行了改进,重点提升了“视觉质量”、“指令遵循”和“自然编辑”。
  • 成本效益:该模型定价为每百万输出 token 30.00 美元,每张图像约 1290 个输出 token(即每张图像 0.039 美元),与其他 Gemini 2.5 Flash 模态保持一致。

2. Google AI Studio 的“构建模式”更新

  • 简化开发流程:Google AI Studio 的“构建模式”经过重大更新,旨在让开发者更轻松地使用 Gemini 2.5 Flash Image 进行构建。
  • “Vibe Coding”(氛围编码):一个核心理念,指通过简单的提示语即可快速构建、修改和迭代 AI 应用程序。例如,Ammaar 仅通过“几个提示”就创建了“Past Forward”应用。
  • 一键部署与 GitHub 集成:开发者可以直接从 AI Studio 部署应用程序,或将代码保存到 GitHub 进行管理。Kat 演示了如何发布链接和创建新的 GitHub 仓库。
  • AI 助手与错误处理:AI Studio 具有“代码助手”功能,可以根据提示生成应用,并在出现错误时自动尝试修复。
  • 用户界面 (UI) 改进:AI Studio 的 UI 进行了大量更新,提供更多空间用于应用程序预览和代码助手,并支持在代码视图和预览视图之间切换。此外,模型选择器和会话时间线等功能也得到改进,提升了用户体验。

3. 模型核心能力

  • 角色一致性 (Character Consistency):这是该模型的一项“根本性挑战”突破,允许用户在不同环境、角度和设置中保持角色或对象的相同外观。“如果你看到了原始图像,当你把它外推到一堆其他图像时,这就是模型角色一致性的一部分真正闪耀的地方。”(Logan Kilpatrick)
  • 应用示例:“Past Forward”应用(后改为“Future Forward”)可以将用户形象转换为不同年代或未来风格,同时保持人物一致。
  • 视觉模板遵循:模型擅长遵循视觉模板,可用于创建房地产列表卡、员工徽章或产品模型。
  • 基于提示的图像编辑 (Prompt-based Image Editing):利用自然语言进行有针对性的图像转换和精确的局部编辑。
  • 应用示例:“AI 动力照片编辑”应用可以根据提示(如“添加胡子”、“添加高帽”、“添加单片眼镜”)修改图像细节。
  • 高速迭代:“能够持续迭代并能在五六秒内完成这些操作,让它变得非常有趣。”(Logan Kilpatrick)这是 Flash 模型速度优势的关键体现。
  • 原生世界知识 (Native World Knowledge):Gemini 2.5 Flash Image 受益于 Gemini 的世界知识,使其能够更好地理解和生成具有现实世界语义的图像,而非仅仅是美学图像。
  • 应用示例:“Home Canvas”应用允许用户上传产品和场景图片,然后将产品自然地融入场景中,如将枕头或猫咪放置在沙发上,并根据光线添加阴影。
  • 教育辅助:模型能够读取和理解手绘图表,回答现实世界问题,并遵循复杂的编辑指令。
  • 多图像融合 (Multi-image Fusion):模型可以理解并合并多个输入图像。
  • 应用示例:“广告可视化工具”应用允许用户上传产品图像,并将其放置在不同的广告场景和背景中,如城市广告牌或伦敦巴士站。
  • “虚拟试穿 (Virtual Try-On)”:允许用户上传自己的照片和服装物品照片,然后可视化试穿效果。

4. 开放与协作

  • 开发者生态系统:该模型通过 Gemini API 和 Google AI Studio 对开发者开放。
  • 合作伙伴:OpenRouter.ai 和 fal.ai 已与 Google 合作,将 Gemini 2.5 Flash Image 提供给更广泛的开发者社区。OpenRouter.ai 首次集成了图像生成模型。
  • SynthID 水印:所有使用 Gemini 2.5 Flash Image 创建或编辑的图像都将包含“隐形 SynthID 数字水印”,以识别其为 AI 生成或编辑。

5. 未来发展方向与已知限制

  • 改进领域
  • 长文本渲染:Nicole Brichtova 提到,模型在处理通用文本(如生成餐厅菜单并让模型自行构思文本)方面仍有不足,这是未来的重点改进方向。
  • 更可靠的角色一致性:尽管已有显著提升,但仍将继续努力。
  • 事实性表示:尤其是在信息图表等应用中,确保图像不仅美观,而且信息准确。
  • 风格化:某些风格表现良好,但并非所有风格都能保持一致性。
  • 用户反馈的重要性:Google 积极鼓励用户通过开发者论坛或 X 平台提供反馈,以帮助团队改进模型。

演示应用示例

演示网址:https://aistudio.google.com/

上传两张图片

输入提示词:图中的两个人在脱口秀大会的舞台上举起图2的奖杯,发型和样貌不变

看下图细节:(仅供参考,如侵权请告知)

继续指定第一排抱上宠物,再看下图细节

总结

Gemini 2.5 Flash Image 的发布标志着图像生成和编辑领域向前迈出了重要一步,特别是在角色一致性、基于提示的精确编辑、世界知识融合和多图像融合方面。Google AI Studio 提供的“氛围编码”体验和更新的 UI 旨在赋能开发者轻松构建和部署创新应用。虽然模型仍有改进空间(如长文本渲染和事实性表示),但其提供的速度、质量和创意控制能力已为开发者打开了新的可能性。

http://www.xdnf.cn/news/1421677.html

相关文章:

  • SQL执行过程及原理详解
  • AI + 机器人:当大语言模型赋予机械 “思考能力”,未来工厂将迎来怎样变革?
  • 三、SVN实践练习指南
  • 轻量级注意力模型HOTSPOT-YOLO:无人机光伏热异常检测新SOTA,mAP高达90.8%
  • Swift 解法详解:LeetCode 368《最大整除子集》
  • 【牛客JZ31】—栈的压入弹出序列判断算法详解
  • FPGA中的亚稳态与跨时钟域数据撕裂现象
  • 眼底病害图像分类数据集
  • MYSQL速通(4/5)
  • KL Loss
  • Python OpenCV图像处理与深度学习:Python OpenCV图像滤波入门
  • [系统架构设计师]论文(二十三)
  • 基于SpringBoot+MYSQL开发的师生成果管理系统
  • 美术馆预约小程序|基于微信小程序的美术馆预约平台设计与实现(源码+数据库+文档)
  • zotero.sqlite已损坏
  • 第9篇:监控与运维 - 集成Actuator健康检查
  • 『C++成长记』vector模拟实现
  • 车载总线架构 --- 车载LIN总线传输层概述
  • 百胜软件获邀出席第七届中国智慧零售大会,智能中台助力品牌零售数智变革
  • C++ 虚继承:破解菱形继承的“双亲困境”
  • 【macOS】垃圾箱中文件无法清理的--特殊方法
  • Linux | 走进网络世界:MAC、IP 与通信的那些事
  • PyTorch 实战(3)—— PyTorch vs. TensorFlow:深度学习框架的王者之争
  • mysql中如何解析某个字段是否是中文
  • 攻防演练笔记
  • Frida Hook API 转换/显示堆栈
  • 【数学建模学习笔记】缺失值处理
  • 数学分析原理答案——第七章 习题13
  • 文件夹上传 (UploadFolder)
  • crypto-babyrsa(2025YC行业赛)