端到端推荐大模型OneSug颠覆电商查询推荐!端到端生成式框架降延迟43%,长尾场景突破传统瓶颈
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
- GPT多模态大模型与AI Agent智能体系列一百一二十二
- 端到端推荐大模型OneSug颠覆电商查询推荐!端到端生成式框架降延迟43%,长尾场景突破传统瓶颈
- 一、前言:电商查询推荐的“传统困境”与OneSug的破局点
- 1. 传统多阶段架构(MCA)的“致命矛盾”
- 2. 长尾前缀的“推荐死穴”
- 二、OneSug的核心定位:与OneRec的“差异互补”,聚焦开放场景
- 三、OneSug三大核心模块:从“前缀增强”到“偏好对齐”的全链路优化
- 1. Prefix2Query表征增强(PRE):解决短前缀“语义歧义”的关键
- (1)BGE对齐微调:让通用语义模型“懂电商”
- (2)RQ-VAE生成语义ID:既增强语义,又降本提效
- 2. 编码-解码框架:端到端生成,告别“多阶段割裂”
- 3. 用户偏好对齐:从“生成查询”到“生成用户想要的查询”
- (1)奖励加权排序(RWR):用真实交互给查询“打分”
- (2)混合排序框架:从“ pairwise 比较”到“ list-wise 优化”
- 四、实验效果:离线线上双验证,长尾场景成最大亮点
- 1. 离线评估:碾压传统MCA,生成式架构优势凸显
- 2. 消融实验:PRE与RWR是“效果支柱”
- 3. 线上AB测试:全量流量验证,业务指标全面增长
- 五、深度分析:OneSug的“价值延伸”与落地启示
- 1. 收益主要来自“行业普适性”与“长尾突破”
- 2. 模型迭代“低成本高效”
- 3. 特征使用“少而精”,拒绝“堆砌冗余”
- 六、总结:OneSug给生成式查询推荐的3个核心启示
- 更多技术内容
- 总结
GPT多模态大模型与AI Agent智能体系列一百一二十二
端到端推荐大模型OneSug颠覆电商查询推荐!端到端生成式框架降延迟43%,长尾场景突破传统瓶颈
在生成式推荐从“封闭物品推荐”向“开放场景延伸”的浪潮中,快手继OneRec之后,又推出了针对电商查询推荐的生成式框架OneSug。这个看似聚焦“用户输入前缀推荐查询”的技术方案,却彻底打破了传统多阶段架构(MCA)效率低、长尾覆盖差的痛点,不仅在全量流量下稳定运行超一个月,更实现了CTR、下单量、营收的全面增长。这份3000字深度拆解,带你看懂OneSug如何让“输入几个字,精准推查询”的体验,从“传统匹配”跃升到“生成式智能”。
一、前言:电商查询推荐的“传统困境”与OneSug的破局点
当用户在电商搜索框输入“手机”时,能收到“2025年最好的手机”“性价比手机排行榜”这类精准查询建议——这看似简单的功能,背后是电商查询推荐的核心价值:减少用户输入成本,精准匹配潜在需求。但传统方案却长期被两大难题困住:
1. 传统多阶段架构(MCA)的“致命矛盾”
传统查询推荐依赖“召回-预排序-精排”的多阶段级联架构(MCA),比如用BGE做召回、DCN预排序、DIN精排。为了平衡效果与效率,各阶段优化目标往往不一致:召回阶段追求“全”,可能引入大量低质候选;排序阶段追求“准”,又会筛掉部分潜在优质查询。这种“目标割裂”不仅导致最终推荐效果打折,更带来高昂的推理开销——系统延迟高,用户等待时间长,直接影响搜索体验。
2. 长尾前缀的“推荐死穴”
传统方案高度依赖查询日志中的热门词和历史交互,对于“冷前缀”(如用户输入的小众品牌、新兴品类前缀)几乎无能为力。比如用户输入“2025新款折叠屏手机壳”这类低频次前缀,传统模型因缺乏历史数据,无法召回有效查询,只能推荐泛泛的热门词,错失精准转化机会。
而快手OneSug的出现,正是瞄准这两大痛点。作为首个电商查询推荐端到端生成式框架,它最大的突破在于:将“多阶段割裂流程”整合为“端到端生成”,同时用语义增强解决短前缀歧义问题,尤其在开放词表、长尾场景下展现出传统方案无法比拟的优势。
二、OneSug的核心定位:与OneRec的“差异互补”,聚焦开放场景
很多人会好奇,OneSug与快手之前推出的OneRec有何不同?其实二者的核心差异,在于“处理场景的词表属性”——这也是OneSug能适配查询推荐的关键:
对比维度 | OneRec(视频推荐) | OneSug(电商查询推荐) |
---|---|---|
词表类型 | 封闭词表(输出为确定的视频ID) | 开放词表(输出为动态变化的查询词) |
建模粒度 | 会话级建模(关注用户长期行为) | 前缀级细粒度建模(关注前缀与查询的强关联) |
核心挑战 | 物品匹配精度与召回效率平衡 | 短前缀语义歧义、长尾查询覆盖 |
简单来说,视频推荐是“从固定物品库中选”,而查询推荐是“根据前缀生成新的、开放的查询词”——这种开放性,让生成式范式有了更契合的应用场景,也让OneSug的设计必须围绕“前缀语义理解”和“用户偏好精准对齐”展开。
三、OneSug三大核心模块:从“前缀增强”到“偏好对齐”的全链路优化
OneSug的整体架构看似简洁,却暗藏针对查询推荐场景的精密设计。它以“用户输入前缀”为核心,融合历史查询、用户画像等信息,通过三大模块实现“精准理解-高效生成-偏好匹配”的全链路优化,最终输出用户最可能点击的查询列表。
1. Prefix2Query表征增强(PRE):解决短前缀“语义歧义”的关键
用户输入的前缀往往很短(如“手机”“裙子”),语义模糊性强——同样输入“手机”,有人想要“性价比款”,有人想要“高端旗舰”。PRE模块的核心目标,就是让短前缀“说话更清晰”,同时降低后续生成的计算复杂度。
(1)BGE对齐微调:让通用语义模型“懂电商”
BGE作为通用语义模型,在电商领域存在知识盲区(比如不懂“电商专属术语”“商品功能词”),且无法精准捕捉“前缀-查询”的交互关系。OneSug通过两步优化让BGE适配电商场景:
- 高质量样本构建:用ItemCF、Swing等检索模型,生成“前缀-查询”“查询-查询”的高语义相关配对样本(如“手机”与“2025高性价比手机”配对);
- 对比学习微调:用这些电商专属样本对BGE进行对齐训练,让模型学会识别电商场景下的语义关联,避免将“手机”与“手机游戏”这类非购物查询混淆。
(2)RQ-VAE生成语义ID:既增强语义,又降本提效
短前缀的语义信息有限,OneSug引入RQ-VAE(残差量化变分自编码器),通过“生成语义ID+聚类搜索”的方式,为前缀补充语义信息:
- 生成语义ID:RQ-VAE将前缀的语义特征编码为离散的语义ID,训练目标是让编码器输入与解码器输出尽可能一致(最小化重构误差),同时让语义特征靠近聚类质心,保证ID的语义一致性;
- 聚类搜索找相关查询:拿到前缀的语义ID后,先匹配“相同语义ID”的高质量查询,再扩展到“共享相同codeword”的查询——这样既能快速找到与前缀高度相关的候选,又避免了传统检索的高计算开销。
最终,前缀的表征从“单一短文本向量”升级为“融合相关查询语义的增强向量”,不仅解决了歧义问题,还让后续生成模型能更精准地捕捉用户潜在需求。
2. 编码-解码框架:端到端生成,告别“多阶段割裂”
OneSug采用Transformer-based的编码-解码结构,彻底抛弃传统多阶段流程,实现“从输入信息到查询列表”的端到端生成:
- 编码器:负责建模“用户历史查询序列+用户画像”,捕捉用户长期偏好。比如用户历史常搜“性价比家电”,编码器会将这一偏好融入特征,确保生成的查询贴合用户习惯;
- 解码器:以“增强后的前缀向量”为条件,自回归生成查询词。训练时采用交叉熵损失,预测下一个token的ID,经过多轮训练后得到基础种子模型(M_t)。
这种端到端设计的优势很直接:无需在各阶段间传递候选集,避免了“召回漏优质查询、排序误筛有效候选”的问题,同时减少了系统模块间的交互开销,为后续降低延迟打下基础。
3. 用户偏好对齐:从“生成查询”到“生成用户想要的查询”
生成式模型容易陷入“生成流畅但用户不点击”的困境——比如生成“2025最新手机”这类通用查询,却不符合用户“预算3000元内”的潜在需求。OneSug通过“奖励加权排序(RWR)”和“混合排序框架”,让生成的查询精准匹配用户偏好。
(1)奖励加权排序(RWR):用真实交互给查询“打分”
OneSug没有依赖复杂的CTR模型(需上千特征,易受数据偏移影响),而是直接用线上用户的交互行为作为奖励信号,将用户行为分为6个等级并赋予对应权重:
用户行为等级 | 权重(λ) | 定义(以查询推荐为例) |
---|---|---|
Order(下单) | 2.0 | 用户点击查询后完成下单 |
Item Click(点商品) | 1.5 | 用户点击查询后浏览商品 |
Click(点查询) | 1.0 | 用户点击推荐的查询 |
Show(仅曝光) | 0.5 | 查询被曝光但未点击 |
Not Show(未曝光) | 0.2 | 查询未进入曝光池 |
Rand(随机候选) | 0.0 | 随机选取的低质候选查询 |
对于每对“正样本(如Order对应的查询)-负样本(如Rand对应的查询)”,计算偏好差值(rwΔ):rwΔ = r(x_u, q_w) - r(x_u, q_l)(q_w为正样本,q_l为负样本)。较小的rwΔ能让模型关注用户行为的细微差异,比如区分“点击查询”和“点击后下单”的偏好权重,避免生成“看似相关却无转化”的查询。
(2)混合排序框架:从“ pairwise 比较”到“ list-wise 优化”
传统DPO(直接偏好优化)仅能做“一对一”的pairwise比较,无法处理“多个候选查询的整体排序”,而查询推荐需要输出“有序列表”。OneSug对此做了两大改进:
- 引入目标奖励边际(δ):要求正样本的奖励必须比负样本高至少δ,避免模型对“微小差异”过度敏感,提升鲁棒性;
- 扩展为list-wise建模:不再局限于“一对负样本”,而是将输入前缀与多个负样本构建偏好数据集,用基于margin的损失函数优化整体排序。比如对于前缀“手机”,同时对比“性价比手机”(正)、“高端手机”(中性)、“手机游戏”(负)的奖励差异,让生成的列表更符合用户真实偏好顺序。
此外,OneSug还加入SFT损失(log π_θ(q_w|x_u)),避免模型过度拟合奖励信号而牺牲生成质量——确保生成的查询既“用户喜欢”,又“语义通顺、符合电商场景”。
四、实验效果:离线线上双验证,长尾场景成最大亮点
OneSug的价值,最终通过“离线指标+线上AB测试+深度分析”三重验证,从技术效果到业务价值全面超越传统方案。
1. 离线评估:碾压传统MCA,生成式架构优势凸显
实验对比了“传统多阶段架构(MCA)”“生成式检索架构(GRA,复刻Tiger/OneRec)”与“OneSug系列”,核心指标HitRate(召回率)和MRR(平均 reciprocal 排名)结果如下:
- MCA表现拉胯:基础MCA的HitRate和MRR远低于线上系统,因为大量优质查询在多阶段筛选中被淘汰;线上MCA(onlineMCA)虽通过多召回、复杂排序提升效果,但推理开销激增,延迟高企;
- 普通生成式架构(GRA)有局限:即使加入DPO优化,GRA仍逊于onlineMCA,原因是无法充分理解短前缀语义,也难以区分用户行为层级的偏好差异;
- OneSug系列霸榜:无论是用Bart、mT5还是Qwen-2.5模型,OneSug均取得最优效果,且模型规模越大提升越明显——Qwen-2.5系列的HitRate和MRR较onlineMCA提升超8%,证明“前缀增强+偏好对齐”的有效性。
2. 消融实验:PRE与RWR是“效果支柱”
通过拆解OneSug的核心模块,发现两大模块对效果的贡献至关重要:
- PRE模块(前缀增强):去除后HitRate@16下降3.68%、MRR下降2.30%,证明相关查询对短前缀语义补充的关键作用;
- RWR模块(奖励加权):去除后HitRate@16下降2.38%、MRR下降5.75%,说明用户交互奖励是精准对齐偏好的核心;
- list-wise排序:换成pairwise排序后,指标下降2.52%-3.23%,验证了“整体排序优化”比“一对一比较”更贴合查询推荐场景。
同时,实验还发现“相关查询序列长度”和“beam size”的权衡点:序列过长会引入噪声,beam size越大效果越好但延迟越高——这为工业落地提供了明确的参数调优方向。
3. 线上AB测试:全量流量验证,业务指标全面增长
在快手电商搜索全量流量中,用OneSug替代onlineMCA,结果超出预期:
- 用户体验提升:用户点击前位(TCP)下降9.33%(用户无需翻页就能找到想要的查询),平均延迟减少43.21%(系统响应更快);
- 业务转化增长:CTR提升2.01%,下单量提升2.04%,营收提升1.69%——这意味着OneSug不仅让用户体验更好,更直接带动了电商交易的核心指标;
- 稳定性验证:在数亿用户、每日数十亿PV的压力下,稳定运行超一个月,证明其工业级的可靠性。
五、深度分析:OneSug的“价值延伸”与落地启示
除了表面的指标增长,OneSug还在“收益来源”“模型迭代”“特征使用”三个维度,为生成式查询推荐的落地提供了关键启示。
1. 收益主要来自“行业普适性”与“长尾突破”
- 行业覆盖广:30个电商行业中,27个行业的CTR均有提升,平均增长2.12%,仅3个行业略有下降且无统计显著性——说明OneSug的“统一建模”能适配不同品类的查询推荐需求,无需为每个行业单独定制模型;
- 长尾场景爆发:按前缀热度划分(高:>1000PV/天,中:100-1000PV/天,长尾:<100PV/天),长尾前缀的查询推荐效果提升最显著——PRE模块通过语义ID和聚类搜索,让“冷前缀”也能匹配到相关查询,彻底解决了传统方案的长尾痛点。
2. 模型迭代“低成本高效”
传统模型需要频繁用全量数据更新,否则效果会快速下滑。但OneSug表现出更强的“效果稳定性”:未更新的OneSug随时间推移,CTR仅下降0.6%,远低于onlineMCA的1.1%;更关键的是,仅用近3天数据更新“用户偏好模块”,就能维持模型效果——这大幅降低了模型迭代的算力成本和时间成本。
3. 特征使用“少而精”,拒绝“堆砌冗余”
推荐系统常陷入“特征越多效果越好”的误区,但OneSug的实验表明:
- ID特征需谨慎:用户ID、前缀ID等离散特征容易干扰语义理解,需用RQ-VAE生成的语义ID替代,才能避免模型“记ID不记语义”;
- 关键特征够用即止:序列特征(历史查询)、分桶特征(月均搜索量)、目标感知特征(共现频次)对效果有正向帮助,但需通过合理提示词引入,过多特征反而会增加模型负担,影响生成效率。
六、总结:OneSug给生成式查询推荐的3个核心启示
快手OneSug的成功,不仅是一个技术方案的落地,更重新定义了电商查询推荐的“设计逻辑”,给业界带来三大关键启示:
- 开放场景更需“语义优先”:查询推荐的开放词表属性,决定了“语义理解”比“传统匹配”更重要——PRE模块通过BGE对齐和RQ-VAE,让短前缀从“模糊输入”变成“精准语义信号”,这是生成式方案超越传统的核心;
- 端到端架构是“效率与效果的平衡点”:传统多阶段架构的“目标割裂”是效率低的根源,OneSug的端到端生成不仅减少了模块交互开销,更让“前缀理解-偏好对齐-查询生成”形成闭环,实现“效率提升43%+效果增长2%”的双赢;
- 落地需兼顾“业务价值”与“工程可行性”:OneSug没有追求“纯技术炫技”,而是通过“低成本迭代”“少而精的特征”“稳定性验证”,确保技术能真正落地并创造业务价值——这正是生成式技术从“实验室”走向“工业界”的关键。
从OneRec到OneSug,快手正在用实际落地证明:生成式推荐不是“空中楼阁”,而是能解决具体场景痛点、带动业务增长的实用技术。而OneSug的经验,也为更多企业在“开放场景生成式推荐”的探索上,提供了可复制、可落地的参考路径。
下一篇内容详解更多…
更多技术内容
更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
实战驱动,掌握大模型开发全流程
智能涌现与 AGI 前瞻,抢占技术高地
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄