当前位置: 首页 > backend >正文

Google Gemini 体验

文章中代码仓库

gemini

谷歌推出的 AI 只能模型

  • Gemini官网
  • Gemini Chat
  • Gemini开发者文档
  • Gemini SDK

所有模型

模型变体输入输出优化目标
Gemini 2.5 Pro gemini-2.5-pro音频、图片、视频、文本和 PDF文本增强的思考和推理能力、多模态理解能力、高级编码能力等
Gemini 2.5 Flash gemini-2.5-flash音频、图片、视频和文本文本适应性思维,成本效益
Gemini 2.5 Flash-Lite 预览版 gemini-2.5-flash-lite-preview-06-17文本、图片、视频、音频文本最具成本效益且支持高吞吐量的模型
Gemini 2.5 Flash 原生音频 gemini-2.5-flash-preview-native-audio-dialog & gemini-2.5-flash-exp-native-audio-thinking-dialog音频、视频和文本文本和音频,交错显示高质量、自然的对话式音频输出,无论是否经过思考
Gemini 2.5 Flash 预览版 TTS gemini-2.5-flash-preview-tts文本音频低延迟、可控的单语音和多语音文字转语音音频生成
Gemini 2.5 Pro 预览版 TTS gemini-2.5-pro-preview-tts文本音频低延迟、可控的单语音和多语音文字转语音音频生成
Gemini 2.0 Flash gemini-2.0-flash音频、图片、视频和文本文本新一代功能、速度和实时流式传输。
Gemini 2.0 Flash 预览版图片生成 gemini-2.0-flash-preview-image-generation音频、图片、视频和文本文字、图片对话式图片生成和编辑
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite音频、图片、视频和文本文本成本效益和低延迟
Gemini 1.5 Flash gemini-1.5-flash音频、图片、视频和文本文本在各种任务中提供快速而多样的性能 已弃用
Gemini 1.5 Flash-8B gemini-1.5-flash-8b音频、图片、视频和文本文本量大且智能程度较低的任务 已弃用
Gemini 1.5 Pro gemini-1.5-pro音频、图片、视频和文本文本需要更高智能的复杂推理任务 已弃用
Gemini Embedding gemini-embedding-001文本文本嵌入衡量文本字符串的相关性
Imagen 4 imagen-4.0-generate-preview-06-06 imagen-4.0-ultra-generate-preview-06-06文本图片我们最新的图片生成模型
Imagen 3 imagen-3.0-generate-002文本图片高质量图片生成模型
Veo 3 预览版 veo-3.0-generate-preview文本带音频的视频生成包含音效、环境噪音和对话的高品质视频
Veo 2 veo-2.0-generate-001文字、图片视频高质量视频生成
Gemini 2.5 Flash Live gemini-live-2.5-flash-preview音频、视频和文本文字、音频低延迟的双向语音和视频互动
Gemini 2.0 Flash Live gemini-2.0-flash-live-001音频、视频和文本文字、音频低延迟的双向语音和视频互动

引入SDK

go get google.golang.org/genai

设置GEMINI API KEY 环境变量

export GEMINI_API_KEY="your-api-key"

示例

文本生成

  1. 单个文本输入
  2. 思考功能
  3. 系统指令来引导 Gemini 模型的行为
  4. 借助 GenerateContentConfig 对象, 替换默认生成参数
  5. 多模态输入,将文本与媒体文件组合使用
  6. 流式响应
  7. 多轮对话
  8. 流式响应多轮对话

图片生成

  1. 文本生成图片
  2. 图片编辑
  3. 使用 Imagen 模型生成图片 (需要付费)

生成视频

  1. 使用 Veo 3 生成视频 (要使用此模式,请确保您的帐户具有活动的GCP计费)
  2. 根据图片生成视频 (需要付费)

结构化输出

  1. 结构化输出

文档理解

  1. 传递内嵌 PDF 数据
  2. 使用 File API 上传 PDF

图片理解

  1. 传递内嵌图片数据
  2. 使用 File API 上传图片

视频理解

  1. YouTuBe

代码执行

  1. 生成代码, 并执行代码
  2. 在对话中使用代码执行
func main() {// 文本生成text.TexGen()text.TexGenThinking()text.TexGenCli()text.TexGenDefaultConfig()text.TexGenMultiModal()text.TexGenStream()text.TexMultipleRoundsOfDialogue()text.TexGenStreamMultipleRoundsOfDialogue()// 图片生成photo.PhoGen()photo.PhoEdit()photo.ImaGen40GeneratePreview0606()// 生成视频voe3.VeoGen()voe3.ImageGenVideo()// 结构化输出format.FormatToJson()// 代码执行coding.EnableCodingExec()coding.DialogCodingExec()// 文档理解docs.InnerDoc()docs.UploadFileApi()// 图片理解photo.PhoInnerRead()photo.PhoFileApi()// 视频理解video.YouTuBe()
}
http://www.xdnf.cn/news/16032.html

相关文章:

  • AI一周事件(2025年7月15日-7月21日)
  • C语言符号可见性控制与工程实践——深入理解 __attribute__((visibility)) 和 -fvisibility=hidden
  • repmgr+vip实现对业务透明的高可用切换
  • 【金融机器学习】第四章:风险-收益权衡——Bryan Kelly, 修大成(中文翻译)
  • 92套毕业相册PPT模版
  • 【vscode】vscode中python虚拟环境的创建
  • SpringBoot与Vue实战:高效开发秘籍
  • 基于LangGraph的Open Deep Research架构全解析:从多Agent协作到企业级落地
  • 精密全波整流电路(二)
  • 大疆视觉算法面试30问全景精解
  • 企业工商信息查询API详细文档对接流程-JavaScript营业执照真伪解析
  • Word Press富文本控件的保存
  • Matlab学习笔记:矩阵基础
  • 《Uniapp-Vue 3-TS 实战开发》自定义预约时间段组件
  • 学习python中离线安装pip及下载package的方法
  • Django中间件
  • 云祺容灾备份系统阿里云对象存储备份与恢复实操手册
  • map和set的应用与模拟实现
  • postgresql使用记录 SCRAM authentication requires libpq version 10 or above
  • 得物视觉算法面试30问全景精解
  • C++刷题常用方法
  • iOS组件化详解
  • 架构演进核心路线:从离线仓库到实时湖仓一体
  • 建造者设计模式
  • ArcGIS水文及空间分析与SWMM融合协同在城市排水防涝领域中的应用
  • web复习
  • Element Plus Table 组件扩展:表尾合计功能详解
  • 【后端】HMAC签名
  • 【React 入门系列】React 组件通讯与生命周期详解
  • 替代Oracle?金仓数据库用「敢替力」重新定义国产数据库