当前位置: 首页 > web >正文

告别强化学习?GEPA:用“反思性提示词进化”实现超越的新范式

告别强化学习?GEPA:用“反思性提示词进化”实现超越的新范式

在大型语言模型(LLM)的时代,如何高效地让模型适应各种下游任务,是所有开发者和研究者面临的核心挑战。传统上,强化学习(RL)方法,如 GRPO(Group Relative Policy Optimization),是主流选择。然而,这些方法通常需要成千上万次的“演练”(rollouts)才能学会新任务,成本高昂且效率低下。

现在,一篇名为《GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning》的论文提出了一种全新的解决方案,它认为语言本身的可解释性可以为 LLM 提供比稀疏标量奖励更丰富的学习媒介。


什么是 GEPA?

GEPA 的全称是 Genetic-Pareto,它是一个创新的提示词优化器。其核心思想是通过**自然语言反思(Natural Language Reflection)**来从反复试验中学习高级规则,从而对包含一个或多个 LLM 提示词的任何 AI 系统进行优化。

GEPA 的工作流程可以概括为以下几步:

  1. 采样轨迹 (Sample Trajectories):运行系统,并收集其完整的行为轨迹,例如推理过程、工具调用和最终输出。
  2. 语言反思 (Reflect in Language):使用一个强大的 LLM(reflection_lm)来分析这些轨迹,用自然语言诊断其中存在的问题。
  3. 提出并测试更新 (Propose & Test Updates):基于反思的结论,提出对提示词的修改建议,并进行测试。
  4. 帕累托前沿融合 (Combine Lessons):从所有尝试中,筛选出处于“帕累托前沿”的优秀候选者,并将它们的优点互补结合,生成更优的解决方案。

这种设计的最大优势在于,GEPA 常常仅需几次“演练”就能带来巨大的质量提升。

GEPA 的惊人表现

研究数据显示,GEPA 的性能非常出色:

  • 超越强化学习:在四项任务中,GEPA 的平均表现比 GRPO 高出 10%,最高可达 20%,而使用的“演练”次数却减少了多达 35 倍
  • 超越其他提示词优化器:在两个不同的 LLM 上,GEPA 的表现比领先的提示词优化器 MIPROv2 高出 10% 以上。
  • 代码优化潜力:它在作为推理时代码优化的搜索策略方面也显示出巨大的潜力。

如何使用 GEPA?

上手 GEPA 非常简单。

1. 安装

你可以通过 pip 轻松安装 GEPA:

pip install gepa

或者安装最新的主分支版本:

pip install git+https://github.com/gepa-ai/gepa.git

2. 快速上手:DSPy 集成

使用 GEPA 最简单、最强大的方式是通过 DSPy 框架,它已将 GEPA 算法直接集成到 dspy.GEPA API 中。

下面是一个简单的示例,使用 GEPA 优化一个用于解决 AIME 数学问题的系统提示词:

import gepa
import dspy
# 假设 OPENAI_API_KEY 已在环境中设置
# 加载 AIME 数据集
trainset, valset, _ = gepa.examples.aime.init_dataset()
# 初始的种子提示词
seed_prompt = {"system_prompt": "You are a helpful assistant. You are given a question and you need to answer it. The answer should be given at the end of your response in exactly the format '### <final answer>'"
}
# 运行 GEPA 优化过程
gepa_result = gepa.optimize(seed_candidate=seed_prompt,trainset=trainset, valset=valset,task_lm="openai/gpt-4.1-mini", # <-- 这是被优化的模型max_metric_calls=150,          # <-- 设置评估预算reflection_lm="openai/gpt-5",  # <-- 使用更强的模型进行反思,以提出更好的提示词
)
# 打印 GEPA 优化后的最佳提示词
print("GEPA Optimized Prompt:", gepa_result.best_candidate['system_prompt'])

在这个例子中,GEPA 仅用少量迭代就将 GPT-4.1 Mini 在 AIME 2025 基准上的性能从 46.6% 提升到了 56.6%,实现了 10% 的显著改进。你可以将 GEPA 理解为一个预计算过程,它在优化阶段预先进行推理,为未来的任务实例制定一个优秀的执行计划。


GEPA 的工作原理与扩展性

GEPA 的核心是一个利用 LLM 反思来进行候选者变异的进化搜索算法。最关键的是,GEPA 能够利用任务特定的文本反馈(例如,编译器的错误信息、性能分析报告、API 文档等)来指导搜索过程。

此外,GEPA 围绕一个灵活的 GEPAAdapter 抽象构建,这使得它可以轻松接入任何系统并优化不同类型的文本片段。除了优化单个提示词,GEPA 甚至可以进化整个程序。例如,DSPy Full Program Adapter 演示了如何从一个在 MATH 基准上准确率为 67% 的基础 dspy.ChainOfThought 程序,进化出一个达到 93% 准确率的多步推理程序。


结论与资源

GEPA 通过其创新的“反思性进化”机制,为优化 AI 系统提供了一种比传统强化学习更高效、更强大的新范式。它不仅限于提示词工程,更可以扩展到代码、指令和复杂智能体(Agent)的优化。

延伸阅读

  • 论文原文: 📄 GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning (arXiv:2507.19457)
  • GitHub 仓库: gapa-ai/gepa
  • 教程与示例: dspy.GEPA Tutorials
http://www.xdnf.cn/news/19547.html

相关文章:

  • SpringMVC的执行流程
  • 阿里云-应用实时监控服务 ARMS
  • 想学怎么写网站怎么办?初学者专用! (HTML+CSS+JS)
  • 微知-Mellanox OFED编译的一些细节?无法编译怎么办?如何添加自定义编译选项?
  • selenium 元素操作
  • mysql5.7.44安装遇到登录权限问题
  • NM:微生物组数据分析的规划与描述
  • 数字世界的两面性:从乘积组合到最大公约数的算法之旅
  • MCP(Model Context Protocol,模型上下文协议)介绍
  • 计算机毕设选题:基于Python+Django实现电商评论情感分析系统
  • 如何利用AI IDE快速构建一个简易留言板系统
  • 基于SpringBoot + Vue 的宠物领养管理系统
  • Decoder 解码器
  • JPEG XS概述
  • 【51单片机】【protues仿真】基于51单片机智能晾衣架系统
  • centos7安装jdk17
  • Linux 中进入 root 权限
  • C++ 数据结构之哈希表及其相关容器
  • 从RNN到BERT
  • C++Primer笔记——第七章:类(上)
  • 开发常用工具专栏
  • Playwright Python 教程:中级篇
  • Windows PowerShell
  • QT6(QStandardItemModel和QTableView及自定义代理)
  • 【数据结构】并查集
  • Nodejs之HelloWord Hello-Http
  • 深度学习篇---MobileNet
  • 【系列12】端侧AI:构建与部署高效的本地化AI模型 第11章:边缘设备与IoT部署
  • C++ 面试高频考点 力扣 69. x 的平方根 二分查找 题解 每日一题
  • 鸿蒙创新赛活动——Mac提交压缩失败后续