当前位置：首页 > web >正文

告别强化学习？GEPA：用“反思性提示词进化”实现超越的新范式

web 2025/9/4 7:44:16

告别强化学习？GEPA：用“反思性提示词进化”实现超越的新范式

在大型语言模型（LLM）的时代，如何高效地让模型适应各种下游任务，是所有开发者和研究者面临的核心挑战。传统上，强化学习（RL）方法，如 GRPO（Group Relative Policy Optimization），是主流选择。然而，这些方法通常需要成千上万次的“演练”（rollouts）才能学会新任务，成本高昂且效率低下。

现在，一篇名为《GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning》的论文提出了一种全新的解决方案，它认为语言本身的可解释性可以为 LLM 提供比稀疏标量奖励更丰富的学习媒介。

什么是 GEPA？

GEPA 的全称是 Genetic-Pareto，它是一个创新的提示词优化器。其核心思想是通过**自然语言反思（Natural Language Reflection）**来从反复试验中学习高级规则，从而对包含一个或多个 LLM 提示词的任何 AI 系统进行优化。

GEPA 的工作流程可以概括为以下几步：

采样轨迹 (Sample Trajectories)：运行系统，并收集其完整的行为轨迹，例如推理过程、工具调用和最终输出。
语言反思 (Reflect in Language)：使用一个强大的 LLM（reflection_lm）来分析这些轨迹，用自然语言诊断其中存在的问题。
提出并测试更新 (Propose & Test Updates)：基于反思的结论，提出对提示词的修改建议，并进行测试。
帕累托前沿融合 (Combine Lessons)：从所有尝试中，筛选出处于“帕累托前沿”的优秀候选者，并将它们的优点互补结合，生成更优的解决方案。

这种设计的最大优势在于，GEPA 常常仅需几次“演练”就能带来巨大的质量提升。

GEPA 的惊人表现

研究数据显示，GEPA 的性能非常出色：

超越强化学习：在四项任务中，GEPA 的平均表现比 GRPO 高出 10%，最高可达 20%，而使用的“演练”次数却减少了多达 35 倍。
超越其他提示词优化器：在两个不同的 LLM 上，GEPA 的表现比领先的提示词优化器 MIPROv2 高出 10% 以上。
代码优化潜力：它在作为推理时代码优化的搜索策略方面也显示出巨大的潜力。

如何使用 GEPA？

上手 GEPA 非常简单。

1. 安装

你可以通过 pip 轻松安装 GEPA：

pip install gepa

或者安装最新的主分支版本：

pip install git+https://github.com/gepa-ai/gepa.git

2. 快速上手：DSPy 集成

使用 GEPA 最简单、最强大的方式是通过 DSPy 框架，它已将 GEPA 算法直接集成到 dspy.GEPA API 中。

下面是一个简单的示例，使用 GEPA 优化一个用于解决 AIME 数学问题的系统提示词：

import gepa
import dspy
# 假设 OPENAI_API_KEY 已在环境中设置
# 加载 AIME 数据集
trainset, valset, _ = gepa.examples.aime.init_dataset()
# 初始的种子提示词
seed_prompt = {"system_prompt": "You are a helpful assistant. You are given a question and you need to answer it. The answer should be given at the end of your response in exactly the format '### <final answer>'"
}
# 运行 GEPA 优化过程
gepa_result = gepa.optimize(seed_candidate=seed_prompt,trainset=trainset, valset=valset,task_lm="openai/gpt-4.1-mini", # <-- 这是被优化的模型max_metric_calls=150,          # <-- 设置评估预算reflection_lm="openai/gpt-5",  # <-- 使用更强的模型进行反思，以提出更好的提示词
)
# 打印 GEPA 优化后的最佳提示词
print("GEPA Optimized Prompt:", gepa_result.best_candidate['system_prompt'])

在这个例子中，GEPA 仅用少量迭代就将 GPT-4.1 Mini 在 AIME 2025 基准上的性能从 46.6% 提升到了 56.6%，实现了 10% 的显著改进。你可以将 GEPA 理解为一个预计算过程，它在优化阶段预先进行推理，为未来的任务实例制定一个优秀的执行计划。

GEPA 的工作原理与扩展性

GEPA 的核心是一个利用 LLM 反思来进行候选者变异的进化搜索算法。最关键的是，GEPA 能够利用任务特定的文本反馈（例如，编译器的错误信息、性能分析报告、API 文档等）来指导搜索过程。

此外，GEPA 围绕一个灵活的 GEPAAdapter 抽象构建，这使得它可以轻松接入任何系统并优化不同类型的文本片段。除了优化单个提示词，GEPA 甚至可以进化整个程序。例如，DSPy Full Program Adapter 演示了如何从一个在 MATH 基准上准确率为 67% 的基础 dspy.ChainOfThought 程序，进化出一个达到 93% 准确率的多步推理程序。

结论与资源

GEPA 通过其创新的“反思性进化”机制，为优化 AI 系统提供了一种比传统强化学习更高效、更强大的新范式。它不仅限于提示词工程，更可以扩展到代码、指令和复杂智能体（Agent）的优化。

告别强化学习？GEPA：用“反思性提示词进化”实现超越的新范式