当前位置: 首页 > web >正文

大模型推荐系统新标杆!EGA-V2端到端大模型驱动推荐系统

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

  • GPT多模态大模型与AI Agent智能体系列一百一二十
    • 大模型推荐系统新标杆!EGA-V2端到端大模型驱动推荐系统
  • 美团EGA-V2炸场!生成式广告颠覆传统级联架构:端到端出序列+计费,收入、CTR双升还破解IC难题
    • 一、传统广告系统的“三大死穴”,生成式技术成破局关键
    • 二、EGA-V2四大核心设计:从“兴趣建模”到“拍卖对齐”的全链路革新
      • 1. 兴趣预训练:用“双token”捕捉用户+视觉偏好
      • 2. 置换感知奖励模型:让生成结果贴合真实业务价值
      • 3. 拍卖偏好对齐:破解“token级生成”与“广告主计费”的矛盾
      • 4. 多阶段训练:先抓兴趣,再调约束
    • 三、实验验证:EGA-V2全面碾压传统架构,各模块缺一不可
    • 四、行业意义:EGA-V2重新定义广告系统的“端到端”标准
    • 总结
      • 更多技术内容
  • 总结

GPT多模态大模型与AI Agent智能体系列一百一二十

大模型推荐系统新标杆!EGA-V2端到端大模型驱动推荐系统

美团EGA-V2炸场!生成式广告颠覆传统级联架构:端到端出序列+计费,收入、CTR双升还破解IC难题

在线广告是互联网平台的核心收入引擎,但传统广告系统长期被“多级级联架构”(召回→预排→精排→创意选择→拍卖)束缚:早期阶段过滤掉的高价值广告无法恢复,难以实现全局最优;广告投标、计费、分配等业务约束分散在不同模块,协同效率低。而美团最新提出的EGA-V2(端到端生成式广告框架) ,用单个生成模型打通广告全流程,首次实现工业级“广告序列+创意+位置+计费”端到端输出,不仅显著提升平台收入与用户点击率,还破解了广告场景特有的“激励兼容性(IC)”难题,为生成式技术在广告领域的落地树立了标杆。

一、传统广告系统的“三大死穴”,生成式技术成破局关键

传统广告系统的“级联漏斗”模式,虽能平衡性能与延迟,但在工业场景中暴露出难以调和的矛盾:

  1. 全局最优难实现:每个阶段仅筛选Top-K候选传递到下一层,若高价值广告在召回/预排阶段被误筛,后续模块再无机会挽回,直接导致平台收入损失。例如某广告因召回阶段嵌入匹配偏差被过滤,即便其在精排阶段能拿到高评分,也无法参与最终展示。
  2. 业务约束难整合:广告系统需同时满足广告主(投标匹配、计费透明)、平台(收入最大化、广告占比控制)、用户(体验不被干扰)三方需求,但传统架构中“拍卖”“创意选择”“分配”是独立模块,参数调优相互掣肘——比如为提升收入调高广告占比,可能导致用户点击率下降。
  3. 生成式技术“水土不服”:此前生成式推荐(如谷歌TIGER、快手OneRec)在有机推荐(如内容、商品推荐)中已验证价值,但广告场景需额外处理“投标聚合”“计费规则”“激励兼容性(IC,确保广告主如实出价)”等特有问题,直接套用会导致业务落地失败。

针对这些痛点,EGA-V2的核心突破是**“用生成式模型统一全流程,用定制化设计适配广告场景”** ——既保留生成式技术“端到端全局优化”的优势,又解决广告业务的复杂约束。

二、EGA-V2四大核心设计:从“兴趣建模”到“拍卖对齐”的全链路革新

EGA-V2的架构围绕“用户兴趣→奖励反馈→广告约束→多阶段训练”展开,每个模块都精准解决广告场景的特定问题,形成闭环。

1. 兴趣预训练:用“双token”捕捉用户+视觉偏好

传统推荐仅建模用户对“商品/内容”的兴趣,而广告场景需同时考虑“POI(如商家、商品)”和“创意(如广告图片)”——用户可能因“创意吸引”点击广告,也可能因“POI匹配需求”完成转化。EGA-V2通过多模态特征+RQ-VAE向量token化,实现兴趣的精细建模:

  • 多模态特征输入:将用户历史行为序列拆分为“POI特征”(稀疏ID、稠密属性)和“创意特征”(广告图片嵌入),每个行为表示为(e₁^poi, e₁^img),既保留商家/商品的核心信息,又纳入视觉吸引力因素。
  • RQ-VAE分层token化:用残差量化变分自编码器(RQ-VAE)将连续特征编码为离散语义token——POI特征编码为a^poi,创意特征编码为a^img,最终每个行为对应“POI-token+创意-token”的双token对。这种设计的优势在于:语义相似的POI/创意会有重叠token,实现知识共享;同时token化降低了生成模型的输入维度,适配广告场景的低延迟需求。
  • Encoder-Decoder生成逻辑:采用“先POI后创意”的两阶段生成策略——Encoder对用户历史双token序列编码,得到兴趣上下文;Decoder先自回归预测下一个POI-token(匹配用户核心需求),再基于POI-token预测对应的创意-token(匹配视觉偏好)。通过概率分解P(POI, 创意) = P(POI) × P(创意|POI),确保生成的“POI-创意”组合既符合用户兴趣,又具备转化潜力。

2. 置换感知奖励模型:让生成结果贴合真实业务价值

生成式模型的输出质量依赖奖励信号,但广告场景的“价值”不仅是点击/转化——还需考虑广告序列的“排列影响”(如前序广告对后序广告的点击干扰)。EGA-V2设计置换感知奖励模型(RM) ,解决“单一点击反馈无法反映序列价值”的问题:

  • 序列依赖建模:将生成的token序列与原始物品嵌入拼接,形成h = [token, e^poi],再通过自注意力层捕捉序列中广告的相互影响(如同一品类广告连续展示会导致点击率下降)。
  • 多任务价值评估:在奖励模型中加入“pCTR(预测点击率)”“pCVR(预测转化率)”双任务塔,用MLP+Sigmoid输出概率——既关注短期点击,也兼顾长期转化,确保奖励信号与平台最终收入目标对齐。

3. 拍卖偏好对齐:破解“token级生成”与“广告主计费”的矛盾

广告场景的核心难点是“生成式模型输出token序列,但广告主按具体POI(物品)出价计费”——token与POI是多对多映射,直接用token计费会导致广告主感知混乱。EGA-V2通过token级出价分配+解耦计费网络,同时满足平台收入与广告主需求:

  • token级出价聚合:对每个token的组成部分(RQ-VAE的每层code),采用“max聚合”计算出价(b(aᵢʲ) = max{广告主对该token关联POI的所有出价}),再引入权重α(调节出价影响度)和β(控制广告/有机内容占比),灵活平衡业务目标。例如α调大时,高出价token更易被生成;β调小时,有机内容占比提升,保障用户体验。
  • 生成式分配选最优:用beam search生成N个候选token序列,通过奖励模型打分选出“业务价值最高”的序列——既避免传统拍卖“独立排序”的局部最优,又确保生成结果多样性。
  • 解耦POI级计费网络:为满足广告主“按POI计费”的认知,设计独立计费网络:输入生成序列中的POI表征、自排除出价(该POI外其他广告主的出价)、预期价值(分配概率×pCTR),通过Sigmoid激活输出付费率,最终计费金额仅对广告POI计算(有机内容付费为0)。关键是,该网络满足“激励兼容性(IC)”——广告主如实出价时收益最高,避免“低价高排”的作弊行为;同时满足“个体理性(IR)”——广告主付费不超过其预期收益。

4. 多阶段训练:先抓兴趣,再调约束

EGA-V2采用“预训练+后训练”两阶段策略,解决“用户兴趣建模”与“广告约束适配”的目标冲突:

  • 基于兴趣的预训练:用包含广告+有机内容的用户行为序列,优化“POI-token预测损失(LNTP)”和“创意-token预测损失(LMTP)”,让模型先学会捕捉用户核心偏好,避免后续广告约束干扰基础兴趣建模。
  • 基于拍卖的后训练:分三步微调:①训练奖励模型,用真实用户点击/转化数据优化pCTR/pCVR预测;②用策略梯度最大化平台预期收入,鼓励生成高价值序列;③用拉格朗日方法优化计费网络,在“收入最大化”与“IC约束”间找平衡——通过交替更新计费网络参数和拉格朗日乘子,降低“事后后悔值(ex-post regret)”,确保广告主满意度。

三、实验验证:EGA-V2全面碾压传统架构,各模块缺一不可

美团在大规模工业数据集上,将EGA-V2与两类主流传统架构对比,结果显示其在核心指标上实现显著突破:

  • 对比基线:①MCA(召回用TIGER+精排用HSTU+拍卖用CGA);②GR(序列建模用OneRec+拍卖用GSP)。
  • 核心结果
    1. 业务价值提升:EGA-V2的“平台收入相关指标(RP)”显著高于基线,POI点击率(CTR)、创意点击率均有提升——证明端到端生成能捕捉更多高价值广告组合。
    2. 约束满足更优:EGA-V2的“激励不相容度(IC regret)”是所有基线中最低的,说明其计费网络有效保障了广告主如实出价的意愿。
    3. 模块必要性验证:消融实验显示:
      • 移除“MTP(联合预测POI+创意)”后,CTR下降明显——证明双token联合建模更贴合用户决策习惯;
      • 取消“多阶段训练”改为一次性端到端训练,RP和IC regret均恶化——说明兴趣与约束需分阶段优化;
      • 简化“token级出价聚合”为平均聚合,广告占比控制精度下降15%——证明max聚合更适配广告主出价逻辑;
      • 改用传统GSP计费替代解耦网络,IC regret飙升——凸显学习式计费网络对广告场景的必要性。

四、行业意义:EGA-V2重新定义广告系统的“端到端”标准

EGA-V2的价值不仅是技术突破,更重构了工业广告系统的设计逻辑:

  1. 打破“级联桎梏”:首次用单个模型统一广告全流程,解决了传统架构“阶段间瓶颈”问题,为超大规模广告系统提供了“全局最优”的新路径。
  2. 填补“生成式广告空白”:针对广告场景定制“token化+计费网络+拍卖对齐”方案,避免生成式技术在广告领域的“水土不服”,为其他平台提供可复用的落地模板。
  3. 平衡三方利益:既通过端到端优化提升平台收入,又用IC/IR约束保障广告主权益,还通过β调节控制广告占比,兼顾用户体验——实现“用户-平台-广告主”三方共赢。

总结

美团EGA-V2的出现,标志着生成式技术正式从“有机推荐”渗透到“广告”这一更复杂的工业场景。它没有盲目照搬生成式推荐的现有方案,而是针对广告的“投标、计费、分配”痛点做定制化创新,最终实现“技术落地”与“业务价值”的统一。对于广告系统从业者而言,EGA-V2的启示在于:未来的广告架构,必然是“生成式全局优化”与“业务约束深度融合”的结合体——而这,或许就是下一代广告系统的核心方向。

下一篇内容详解更多…

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

http://www.xdnf.cn/news/19096.html

相关文章:

  • Ansys Electronics Desktop 2025 R2 软件界面介绍
  • Java线程池深度解析:从原理到实战的完整指南
  • orbslam2语义分割
  • 工业级TF卡NAND+北京君正+Rk瑞芯微的应用
  • 人工智能-python-深度学习-过拟合与欠拟合:概念、判断与解决方法
  • 【Bluedroid】A2DP Source设备音频数据读取机制分析(btif_a2dp_source_read_callback)
  • Solidity合约编程基础知识
  • Java 多线程环境下的全局变量缓存实践指南
  • jwt原理及Java中实现
  • Ckman部署clickhouse
  • 5.2 I/O软件
  • 横扫SQL面试——流量与转化率分类
  • C++《哈希表》
  • Unity游戏打包——iOS打包pod的重装和使用
  • Servlet 注解:简化配置的完整指南
  • 大模型微调示例四之Llama-Factory-DPO
  • 若依cloud集训总结
  • 汉字这颗穿越时空的智慧之光,在未来绽放出更加耀眼的光芒
  • 深入解析Java并发编程与单例模式
  • 文件系统挂载详细分析(《图解Linux内核》虚拟文件系统篇笔记三)
  • 神经网络为何能 “学习”?从神经元到深度学习模型的层级结构解析
  • 打破存储局限:CS 创世 SD NAND 如何优化瑞芯微(RK)与北京君正平台的贴片式 SD 卡性能
  • 【C++成长之旅】C++入门基础:从 Hello World 到命名空间与函数重载的系统学习
  • Bscan Bonding Chain
  • 印度尼西亚数据源 PHP 对接文档
  • Mysql——分库分表
  • Redis发布订阅:实时消息系统的极简解决方案
  • 从数字到价值:ESG评级的深层变革
  • Linux827 测试
  • 计算机日常答疑,一起寻找问题的最优解