当前位置：首页 > java >正文

端到端推荐大模型OneSug颠覆电商查询推荐！端到端生成式框架降延迟43%，长尾场景突破传统瓶颈

java 2025/8/31 16:10:57

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列一百一二十二
- 端到端推荐大模型OneSug颠覆电商查询推荐！端到端生成式框架降延迟43%，长尾场景突破传统瓶颈
- 一、前言：电商查询推荐的“传统困境”与OneSug的破局点
- - 1. 传统多阶段架构（MCA）的“致命矛盾”
  - 2. 长尾前缀的“推荐死穴”
- 二、OneSug的核心定位：与OneRec的“差异互补”，聚焦开放场景
- 三、OneSug三大核心模块：从“前缀增强”到“偏好对齐”的全链路优化
- - 1. Prefix2Query表征增强（PRE）：解决短前缀“语义歧义”的关键
  - - （1）BGE对齐微调：让通用语义模型“懂电商”
    - （2）RQ-VAE生成语义ID：既增强语义，又降本提效
  - 2. 编码-解码框架：端到端生成，告别“多阶段割裂”
  - 3. 用户偏好对齐：从“生成查询”到“生成用户想要的查询”
  - - （1）奖励加权排序（RWR）：用真实交互给查询“打分”
    - （2）混合排序框架：从“ pairwise 比较”到“ list-wise 优化”
- 四、实验效果：离线线上双验证，长尾场景成最大亮点
- - 1. 离线评估：碾压传统MCA，生成式架构优势凸显
  - 2. 消融实验：PRE与RWR是“效果支柱”
  - 3. 线上AB测试：全量流量验证，业务指标全面增长
- 五、深度分析：OneSug的“价值延伸”与落地启示
- - 1. 收益主要来自“行业普适性”与“长尾突破”
  - 2. 模型迭代“低成本高效”
  - 3. 特征使用“少而精”，拒绝“堆砌冗余”
- 六、总结：OneSug给生成式查询推荐的3个核心启示
- - 更多技术内容
总结

GPT多模态大模型与AI Agent智能体系列一百一二十二

端到端推荐大模型OneSug颠覆电商查询推荐！端到端生成式框架降延迟43%，长尾场景突破传统瓶颈

在生成式推荐从“封闭物品推荐”向“开放场景延伸”的浪潮中，快手继OneRec之后，又推出了针对电商查询推荐的生成式框架OneSug。这个看似聚焦“用户输入前缀推荐查询”的技术方案，却彻底打破了传统多阶段架构（MCA）效率低、长尾覆盖差的痛点，不仅在全量流量下稳定运行超一个月，更实现了CTR、下单量、营收的全面增长。这份3000字深度拆解，带你看懂OneSug如何让“输入几个字，精准推查询”的体验，从“传统匹配”跃升到“生成式智能”。

一、前言：电商查询推荐的“传统困境”与OneSug的破局点

当用户在电商搜索框输入“手机”时，能收到“2025年最好的手机”“性价比手机排行榜”这类精准查询建议——这看似简单的功能，背后是电商查询推荐的核心价值：减少用户输入成本，精准匹配潜在需求。但传统方案却长期被两大难题困住：

1. 传统多阶段架构（MCA）的“致命矛盾”

传统查询推荐依赖“召回-预排序-精排”的多阶段级联架构（MCA），比如用BGE做召回、DCN预排序、DIN精排。为了平衡效果与效率，各阶段优化目标往往不一致：召回阶段追求“全”，可能引入大量低质候选；排序阶段追求“准”，又会筛掉部分潜在优质查询。这种“目标割裂”不仅导致最终推荐效果打折，更带来高昂的推理开销——系统延迟高，用户等待时间长，直接影响搜索体验。

2. 长尾前缀的“推荐死穴”

传统方案高度依赖查询日志中的热门词和历史交互，对于“冷前缀”（如用户输入的小众品牌、新兴品类前缀）几乎无能为力。比如用户输入“2025新款折叠屏手机壳”这类低频次前缀，传统模型因缺乏历史数据，无法召回有效查询，只能推荐泛泛的热门词，错失精准转化机会。

而快手OneSug的出现，正是瞄准这两大痛点。作为首个电商查询推荐端到端生成式框架，它最大的突破在于：将“多阶段割裂流程”整合为“端到端生成”，同时用语义增强解决短前缀歧义问题，尤其在开放词表、长尾场景下展现出传统方案无法比拟的优势。

二、OneSug的核心定位：与OneRec的“差异互补”，聚焦开放场景

很多人会好奇，OneSug与快手之前推出的OneRec有何不同？其实二者的核心差异，在于“处理场景的词表属性”——这也是OneSug能适配查询推荐的关键：

对比维度	OneRec（视频推荐）	OneSug（电商查询推荐）
词表类型	封闭词表（输出为确定的视频ID）	开放词表（输出为动态变化的查询词）
建模粒度	会话级建模（关注用户长期行为）	前缀级细粒度建模（关注前缀与查询的强关联）
核心挑战	物品匹配精度与召回效率平衡	短前缀语义歧义、长尾查询覆盖

简单来说，视频推荐是“从固定物品库中选”，而查询推荐是“根据前缀生成新的、开放的查询词”——这种开放性，让生成式范式有了更契合的应用场景，也让OneSug的设计必须围绕“前缀语义理解”和“用户偏好精准对齐”展开。

三、OneSug三大核心模块：从“前缀增强”到“偏好对齐”的全链路优化

OneSug的整体架构看似简洁，却暗藏针对查询推荐场景的精密设计。它以“用户输入前缀”为核心，融合历史查询、用户画像等信息，通过三大模块实现“精准理解-高效生成-偏好匹配”的全链路优化，最终输出用户最可能点击的查询列表。

1. Prefix2Query表征增强（PRE）：解决短前缀“语义歧义”的关键

用户输入的前缀往往很短（如“手机”“裙子”），语义模糊性强——同样输入“手机”，有人想要“性价比款”，有人想要“高端旗舰”。PRE模块的核心目标，就是让短前缀“说话更清晰”，同时降低后续生成的计算复杂度。

（1）BGE对齐微调：让通用语义模型“懂电商”

BGE作为通用语义模型，在电商领域存在知识盲区（比如不懂“电商专属术语”“商品功能词”），且无法精准捕捉“前缀-查询”的交互关系。OneSug通过两步优化让BGE适配电商场景：

高质量样本构建：用ItemCF、Swing等检索模型，生成“前缀-查询”“查询-查询”的高语义相关配对样本（如“手机”与“2025高性价比手机”配对）；
对比学习微调：用这些电商专属样本对BGE进行对齐训练，让模型学会识别电商场景下的语义关联，避免将“手机”与“手机游戏”这类非购物查询混淆。

（2）RQ-VAE生成语义ID：既增强语义，又降本提效

短前缀的语义信息有限，OneSug引入RQ-VAE（残差量化变分自编码器），通过“生成语义ID+聚类搜索”的方式，为前缀补充语义信息：

生成语义ID：RQ-VAE将前缀的语义特征编码为离散的语义ID，训练目标是让编码器输入与解码器输出尽可能一致（最小化重构误差），同时让语义特征靠近聚类质心，保证ID的语义一致性；
聚类搜索找相关查询：拿到前缀的语义ID后，先匹配“相同语义ID”的高质量查询，再扩展到“共享相同codeword”的查询——这样既能快速找到与前缀高度相关的候选，又避免了传统检索的高计算开销。

最终，前缀的表征从“单一短文本向量”升级为“融合相关查询语义的增强向量”，不仅解决了歧义问题，还让后续生成模型能更精准地捕捉用户潜在需求。

2. 编码-解码框架：端到端生成，告别“多阶段割裂”

OneSug采用Transformer-based的编码-解码结构，彻底抛弃传统多阶段流程，实现“从输入信息到查询列表”的端到端生成：

编码器：负责建模“用户历史查询序列+用户画像”，捕捉用户长期偏好。比如用户历史常搜“性价比家电”，编码器会将这一偏好融入特征，确保生成的查询贴合用户习惯；
解码器：以“增强后的前缀向量”为条件，自回归生成查询词。训练时采用交叉熵损失，预测下一个token的ID，经过多轮训练后得到基础种子模型（M_t）。

这种端到端设计的优势很直接：无需在各阶段间传递候选集，避免了“召回漏优质查询、排序误筛有效候选”的问题，同时减少了系统模块间的交互开销，为后续降低延迟打下基础。

3. 用户偏好对齐：从“生成查询”到“生成用户想要的查询”

生成式模型容易陷入“生成流畅但用户不点击”的困境——比如生成“2025最新手机”这类通用查询，却不符合用户“预算3000元内”的潜在需求。OneSug通过“奖励加权排序（RWR）”和“混合排序框架”，让生成的查询精准匹配用户偏好。

（1）奖励加权排序（RWR）：用真实交互给查询“打分”

OneSug没有依赖复杂的CTR模型（需上千特征，易受数据偏移影响），而是直接用线上用户的交互行为作为奖励信号，将用户行为分为6个等级并赋予对应权重：

用户行为等级	权重（λ）	定义（以查询推荐为例）
Order（下单）	2.0	用户点击查询后完成下单
Item Click（点商品）	1.5	用户点击查询后浏览商品
Click（点查询）	1.0	用户点击推荐的查询
Show（仅曝光）	0.5	查询被曝光但未点击
Not Show（未曝光）	0.2	查询未进入曝光池
Rand（随机候选）	0.0	随机选取的低质候选查询

对于每对“正样本（如Order对应的查询）-负样本（如Rand对应的查询）”，计算偏好差值（rwΔ）：rwΔ = r(x_u, q_w) - r(x_u, q_l)（q_w为正样本，q_l为负样本）。较小的rwΔ能让模型关注用户行为的细微差异，比如区分“点击查询”和“点击后下单”的偏好权重，避免生成“看似相关却无转化”的查询。

（2）混合排序框架：从“ pairwise 比较”到“ list-wise 优化”

传统DPO（直接偏好优化）仅能做“一对一”的pairwise比较，无法处理“多个候选查询的整体排序”，而查询推荐需要输出“有序列表”。OneSug对此做了两大改进：

引入目标奖励边际（δ）：要求正样本的奖励必须比负样本高至少δ，避免模型对“微小差异”过度敏感，提升鲁棒性；
扩展为list-wise建模：不再局限于“一对负样本”，而是将输入前缀与多个负样本构建偏好数据集，用基于margin的损失函数优化整体排序。比如对于前缀“手机”，同时对比“性价比手机”（正）、“高端手机”（中性）、“手机游戏”（负）的奖励差异，让生成的列表更符合用户真实偏好顺序。

此外，OneSug还加入SFT损失（log π_θ(q_w|x_u)），避免模型过度拟合奖励信号而牺牲生成质量——确保生成的查询既“用户喜欢”，又“语义通顺、符合电商场景”。

四、实验效果：离线线上双验证，长尾场景成最大亮点

OneSug的价值，最终通过“离线指标+线上AB测试+深度分析”三重验证，从技术效果到业务价值全面超越传统方案。

1. 离线评估：碾压传统MCA，生成式架构优势凸显

实验对比了“传统多阶段架构（MCA）”“生成式检索架构（GRA，复刻Tiger/OneRec）”与“OneSug系列”，核心指标HitRate（召回率）和MRR（平均 reciprocal 排名）结果如下：

MCA表现拉胯：基础MCA的HitRate和MRR远低于线上系统，因为大量优质查询在多阶段筛选中被淘汰；线上MCA（onlineMCA）虽通过多召回、复杂排序提升效果，但推理开销激增，延迟高企；
普通生成式架构（GRA）有局限：即使加入DPO优化，GRA仍逊于onlineMCA，原因是无法充分理解短前缀语义，也难以区分用户行为层级的偏好差异；
OneSug系列霸榜：无论是用Bart、mT5还是Qwen-2.5模型，OneSug均取得最优效果，且模型规模越大提升越明显——Qwen-2.5系列的HitRate和MRR较onlineMCA提升超8%，证明“前缀增强+偏好对齐”的有效性。

2. 消融实验：PRE与RWR是“效果支柱”

通过拆解OneSug的核心模块，发现两大模块对效果的贡献至关重要：

PRE模块（前缀增强）：去除后HitRate@16下降3.68%、MRR下降2.30%，证明相关查询对短前缀语义补充的关键作用；
RWR模块（奖励加权）：去除后HitRate@16下降2.38%、MRR下降5.75%，说明用户交互奖励是精准对齐偏好的核心；
list-wise排序：换成pairwise排序后，指标下降2.52%-3.23%，验证了“整体排序优化”比“一对一比较”更贴合查询推荐场景。

同时，实验还发现“相关查询序列长度”和“beam size”的权衡点：序列过长会引入噪声，beam size越大效果越好但延迟越高——这为工业落地提供了明确的参数调优方向。

3. 线上AB测试：全量流量验证，业务指标全面增长

在快手电商搜索全量流量中，用OneSug替代onlineMCA，结果超出预期：

用户体验提升：用户点击前位（TCP）下降9.33%（用户无需翻页就能找到想要的查询），平均延迟减少43.21%（系统响应更快）；
业务转化增长：CTR提升2.01%，下单量提升2.04%，营收提升1.69%——这意味着OneSug不仅让用户体验更好，更直接带动了电商交易的核心指标；
稳定性验证：在数亿用户、每日数十亿PV的压力下，稳定运行超一个月，证明其工业级的可靠性。

五、深度分析：OneSug的“价值延伸”与落地启示

除了表面的指标增长，OneSug还在“收益来源”“模型迭代”“特征使用”三个维度，为生成式查询推荐的落地提供了关键启示。

1. 收益主要来自“行业普适性”与“长尾突破”

行业覆盖广：30个电商行业中，27个行业的CTR均有提升，平均增长2.12%，仅3个行业略有下降且无统计显著性——说明OneSug的“统一建模”能适配不同品类的查询推荐需求，无需为每个行业单独定制模型；
长尾场景爆发：按前缀热度划分（高：>1000PV/天，中：100-1000PV/天，长尾：<100PV/天），长尾前缀的查询推荐效果提升最显著——PRE模块通过语义ID和聚类搜索，让“冷前缀”也能匹配到相关查询，彻底解决了传统方案的长尾痛点。

2. 模型迭代“低成本高效”

传统模型需要频繁用全量数据更新，否则效果会快速下滑。但OneSug表现出更强的“效果稳定性”：未更新的OneSug随时间推移，CTR仅下降0.6%，远低于onlineMCA的1.1%；更关键的是，仅用近3天数据更新“用户偏好模块”，就能维持模型效果——这大幅降低了模型迭代的算力成本和时间成本。

3. 特征使用“少而精”，拒绝“堆砌冗余”

推荐系统常陷入“特征越多效果越好”的误区，但OneSug的实验表明：

ID特征需谨慎：用户ID、前缀ID等离散特征容易干扰语义理解，需用RQ-VAE生成的语义ID替代，才能避免模型“记ID不记语义”；
关键特征够用即止：序列特征（历史查询）、分桶特征（月均搜索量）、目标感知特征（共现频次）对效果有正向帮助，但需通过合理提示词引入，过多特征反而会增加模型负担，影响生成效率。

六、总结：OneSug给生成式查询推荐的3个核心启示

快手OneSug的成功，不仅是一个技术方案的落地，更重新定义了电商查询推荐的“设计逻辑”，给业界带来三大关键启示：

开放场景更需“语义优先”：查询推荐的开放词表属性，决定了“语义理解”比“传统匹配”更重要——PRE模块通过BGE对齐和RQ-VAE，让短前缀从“模糊输入”变成“精准语义信号”，这是生成式方案超越传统的核心；
端到端架构是“效率与效果的平衡点”：传统多阶段架构的“目标割裂”是效率低的根源，OneSug的端到端生成不仅减少了模块交互开销，更让“前缀理解-偏好对齐-查询生成”形成闭环，实现“效率提升43%+效果增长2%”的双赢；
落地需兼顾“业务价值”与“工程可行性”：OneSug没有追求“纯技术炫技”，而是通过“低成本迭代”“少而精的特征”“稳定性验证”，确保技术能真正落地并创造业务价值——这正是生成式技术从“实验室”走向“工业界”的关键。

从OneRec到OneSug，快手正在用实际落地证明：生成式推荐不是“空中楼阁”，而是能解决具体场景痛点、带动业务增长的实用技术。而OneSug的经验，也为更多企业在“开放场景生成式推荐”的探索上，提供了可复制、可落地的参考路径。

下一篇内容详解更多…

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏

实战驱动，掌握大模型开发全流程

智能涌现与 AGI 前瞻，抢占技术高地

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

查看全文

http://www.xdnf.cn/news/19196.html