当前位置：首页 > web >正文

大模型推荐系统新标杆！EGA-V2端到端大模型驱动推荐系统

web 2025/8/29 8:39:17

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列一百一二十
- 大模型推荐系统新标杆！EGA-V2端到端大模型驱动推荐系统
美团EGA-V2炸场！生成式广告颠覆传统级联架构：端到端出序列+计费，收入、CTR双升还破解IC难题
- 一、传统广告系统的“三大死穴”，生成式技术成破局关键
- 二、EGA-V2四大核心设计：从“兴趣建模”到“拍卖对齐”的全链路革新
- - 1. 兴趣预训练：用“双token”捕捉用户+视觉偏好
  - 2. 置换感知奖励模型：让生成结果贴合真实业务价值
  - 3. 拍卖偏好对齐：破解“token级生成”与“广告主计费”的矛盾
  - 4. 多阶段训练：先抓兴趣，再调约束
- 三、实验验证：EGA-V2全面碾压传统架构，各模块缺一不可
- 四、行业意义：EGA-V2重新定义广告系统的“端到端”标准
- 总结
- - 更多技术内容
总结

GPT多模态大模型与AI Agent智能体系列一百一二十

大模型推荐系统新标杆！EGA-V2端到端大模型驱动推荐系统

美团EGA-V2炸场！生成式广告颠覆传统级联架构：端到端出序列+计费，收入、CTR双升还破解IC难题

在线广告是互联网平台的核心收入引擎，但传统广告系统长期被“多级级联架构”（召回→预排→精排→创意选择→拍卖）束缚：早期阶段过滤掉的高价值广告无法恢复，难以实现全局最优；广告投标、计费、分配等业务约束分散在不同模块，协同效率低。而美团最新提出的EGA-V2（端到端生成式广告框架） ，用单个生成模型打通广告全流程，首次实现工业级“广告序列+创意+位置+计费”端到端输出，不仅显著提升平台收入与用户点击率，还破解了广告场景特有的“激励兼容性（IC）”难题，为生成式技术在广告领域的落地树立了标杆。

一、传统广告系统的“三大死穴”，生成式技术成破局关键

传统广告系统的“级联漏斗”模式，虽能平衡性能与延迟，但在工业场景中暴露出难以调和的矛盾：

全局最优难实现：每个阶段仅筛选Top-K候选传递到下一层，若高价值广告在召回/预排阶段被误筛，后续模块再无机会挽回，直接导致平台收入损失。例如某广告因召回阶段嵌入匹配偏差被过滤，即便其在精排阶段能拿到高评分，也无法参与最终展示。
业务约束难整合：广告系统需同时满足广告主（投标匹配、计费透明）、平台（收入最大化、广告占比控制）、用户（体验不被干扰）三方需求，但传统架构中“拍卖”“创意选择”“分配”是独立模块，参数调优相互掣肘——比如为提升收入调高广告占比，可能导致用户点击率下降。
生成式技术“水土不服”：此前生成式推荐（如谷歌TIGER、快手OneRec）在有机推荐（如内容、商品推荐）中已验证价值，但广告场景需额外处理“投标聚合”“计费规则”“激励兼容性（IC，确保广告主如实出价）”等特有问题，直接套用会导致业务落地失败。

针对这些痛点，EGA-V2的核心突破是**“用生成式模型统一全流程，用定制化设计适配广告场景”** ——既保留生成式技术“端到端全局优化”的优势，又解决广告业务的复杂约束。

二、EGA-V2四大核心设计：从“兴趣建模”到“拍卖对齐”的全链路革新

EGA-V2的架构围绕“用户兴趣→奖励反馈→广告约束→多阶段训练”展开，每个模块都精准解决广告场景的特定问题，形成闭环。

1. 兴趣预训练：用“双token”捕捉用户+视觉偏好

传统推荐仅建模用户对“商品/内容”的兴趣，而广告场景需同时考虑“POI（如商家、商品）”和“创意（如广告图片）”——用户可能因“创意吸引”点击广告，也可能因“POI匹配需求”完成转化。EGA-V2通过多模态特征+RQ-VAE向量token化，实现兴趣的精细建模：

多模态特征输入：将用户历史行为序列拆分为“POI特征”（稀疏ID、稠密属性）和“创意特征”（广告图片嵌入），每个行为表示为(e₁^poi, e₁^img)，既保留商家/商品的核心信息，又纳入视觉吸引力因素。
RQ-VAE分层token化：用残差量化变分自编码器（RQ-VAE）将连续特征编码为离散语义token——POI特征编码为a^poi，创意特征编码为a^img，最终每个行为对应“POI-token+创意-token”的双token对。这种设计的优势在于：语义相似的POI/创意会有重叠token，实现知识共享；同时token化降低了生成模型的输入维度，适配广告场景的低延迟需求。
Encoder-Decoder生成逻辑：采用“先POI后创意”的两阶段生成策略——Encoder对用户历史双token序列编码，得到兴趣上下文；Decoder先自回归预测下一个POI-token（匹配用户核心需求），再基于POI-token预测对应的创意-token（匹配视觉偏好）。通过概率分解P(POI, 创意) = P(POI) × P(创意|POI)，确保生成的“POI-创意”组合既符合用户兴趣，又具备转化潜力。

2. 置换感知奖励模型：让生成结果贴合真实业务价值

生成式模型的输出质量依赖奖励信号，但广告场景的“价值”不仅是点击/转化——还需考虑广告序列的“排列影响”（如前序广告对后序广告的点击干扰）。EGA-V2设计置换感知奖励模型（RM） ，解决“单一点击反馈无法反映序列价值”的问题：

序列依赖建模：将生成的token序列与原始物品嵌入拼接，形成h = [token, e^poi]，再通过自注意力层捕捉序列中广告的相互影响（如同一品类广告连续展示会导致点击率下降）。
多任务价值评估：在奖励模型中加入“pCTR（预测点击率）”“pCVR（预测转化率）”双任务塔，用MLP+Sigmoid输出概率——既关注短期点击，也兼顾长期转化，确保奖励信号与平台最终收入目标对齐。

3. 拍卖偏好对齐：破解“token级生成”与“广告主计费”的矛盾

广告场景的核心难点是“生成式模型输出token序列，但广告主按具体POI（物品）出价计费”——token与POI是多对多映射，直接用token计费会导致广告主感知混乱。EGA-V2通过token级出价分配+解耦计费网络，同时满足平台收入与广告主需求：

token级出价聚合：对每个token的组成部分（RQ-VAE的每层code），采用“max聚合”计算出价（b(aᵢʲ) = max{广告主对该token关联POI的所有出价}），再引入权重α（调节出价影响度）和β（控制广告/有机内容占比），灵活平衡业务目标。例如α调大时，高出价token更易被生成；β调小时，有机内容占比提升，保障用户体验。
生成式分配选最优：用beam search生成N个候选token序列，通过奖励模型打分选出“业务价值最高”的序列——既避免传统拍卖“独立排序”的局部最优，又确保生成结果多样性。
解耦POI级计费网络：为满足广告主“按POI计费”的认知，设计独立计费网络：输入生成序列中的POI表征、自排除出价（该POI外其他广告主的出价）、预期价值（分配概率×pCTR），通过Sigmoid激活输出付费率，最终计费金额仅对广告POI计算（有机内容付费为0）。关键是，该网络满足“激励兼容性（IC）”——广告主如实出价时收益最高，避免“低价高排”的作弊行为；同时满足“个体理性（IR）”——广告主付费不超过其预期收益。

4. 多阶段训练：先抓兴趣，再调约束

EGA-V2采用“预训练+后训练”两阶段策略，解决“用户兴趣建模”与“广告约束适配”的目标冲突：

基于兴趣的预训练：用包含广告+有机内容的用户行为序列，优化“POI-token预测损失（LNTP）”和“创意-token预测损失（LMTP）”，让模型先学会捕捉用户核心偏好，避免后续广告约束干扰基础兴趣建模。
基于拍卖的后训练：分三步微调：①训练奖励模型，用真实用户点击/转化数据优化pCTR/pCVR预测；②用策略梯度最大化平台预期收入，鼓励生成高价值序列；③用拉格朗日方法优化计费网络，在“收入最大化”与“IC约束”间找平衡——通过交替更新计费网络参数和拉格朗日乘子，降低“事后后悔值（ex-post regret）”，确保广告主满意度。

三、实验验证：EGA-V2全面碾压传统架构，各模块缺一不可

美团在大规模工业数据集上，将EGA-V2与两类主流传统架构对比，结果显示其在核心指标上实现显著突破：

对比基线：①MCA（召回用TIGER+精排用HSTU+拍卖用CGA）；②GR（序列建模用OneRec+拍卖用GSP）。
核心结果：
1. 业务价值提升：EGA-V2的“平台收入相关指标（RP）”显著高于基线，POI点击率（CTR）、创意点击率均有提升——证明端到端生成能捕捉更多高价值广告组合。
2. 约束满足更优：EGA-V2的“激励不相容度（IC regret）”是所有基线中最低的，说明其计费网络有效保障了广告主如实出价的意愿。
3. 模块必要性验证：消融实验显示：
  - 移除“MTP（联合预测POI+创意）”后，CTR下降明显——证明双token联合建模更贴合用户决策习惯；
  - 取消“多阶段训练”改为一次性端到端训练，RP和IC regret均恶化——说明兴趣与约束需分阶段优化；
  - 简化“token级出价聚合”为平均聚合，广告占比控制精度下降15%——证明max聚合更适配广告主出价逻辑；
  - 改用传统GSP计费替代解耦网络，IC regret飙升——凸显学习式计费网络对广告场景的必要性。

四、行业意义：EGA-V2重新定义广告系统的“端到端”标准

EGA-V2的价值不仅是技术突破，更重构了工业广告系统的设计逻辑：

打破“级联桎梏”：首次用单个模型统一广告全流程，解决了传统架构“阶段间瓶颈”问题，为超大规模广告系统提供了“全局最优”的新路径。
填补“生成式广告空白”：针对广告场景定制“token化+计费网络+拍卖对齐”方案，避免生成式技术在广告领域的“水土不服”，为其他平台提供可复用的落地模板。
平衡三方利益：既通过端到端优化提升平台收入，又用IC/IR约束保障广告主权益，还通过β调节控制广告占比，兼顾用户体验——实现“用户-平台-广告主”三方共赢。

总结

美团EGA-V2的出现，标志着生成式技术正式从“有机推荐”渗透到“广告”这一更复杂的工业场景。它没有盲目照搬生成式推荐的现有方案，而是针对广告的“投标、计费、分配”痛点做定制化创新，最终实现“技术落地”与“业务价值”的统一。对于广告系统从业者而言，EGA-V2的启示在于：未来的广告架构，必然是“生成式全局优化”与“业务约束深度融合”的结合体——而这，或许就是下一代广告系统的核心方向。

下一篇内容详解更多…

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏

实战驱动，掌握大模型开发全流程

智能涌现与 AGI 前瞻，抢占技术高地

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

查看全文

http://www.xdnf.cn/news/19096.html