当前位置: 首页 > news >正文

生成式召回-TIGER范式

TIGER(Transformer Index for GEnerative Recommenders)是生成式召回的经典力作,其核心思想就是语义ID+Seq2Seq,这一范式启发了后续大量生成式推荐工作。

📌 背景与痛点

item id是商品在候选库中的独特标识,其具有高度稀疏性,且没有任何物理含义,对于模型训练、新品冷启、可解释性都极不友好。假设一个item的side info足够多,可以完整刻画该item的属性,那么item id完全是可以舍弃的。

TIGER利用多个语义id来表征该item,极大地减少了id embedding词表空间,对工业界生产环境友好;通过模型结构共享相似item的语义信息,提升模型泛化性,利好新品冷启。

✅ TIGER 解决的痛点和优势

痛点TIGER 的解决方法优势
embedding 太大 / 存储高Semantic ID token 数量极小,token vocabulary 可控制内存友好、减小表规模
冷启动 item embedding 缺失Semantic ID 来源于 item 内容特征可推广至新 item,无需训练 embedding
类似 item 无共享相似内容生成相近的 Semantic ID用户语义共享,加强泛化
模型检索复杂Transformer decoder 直接生成端到端简洁流程

🧠 核心创新点

Semantic ID表示

语义id

  • 使用内容编码(如 SentenceT5)生成 item embedding
  • 将embedding经RQ-VAE量化为一系列codeword Tuple,即 Semantic ID
  • 各token具有语义信息,编码符号总量远小于item总量

生成式检索(Generative Retrieval)

seq2seq

通过自回归解码生成目标item id,而不是传统embedding + ANN。Transformer的decoder直接输出item的Semantic ID作为推荐结果。

实验结果

exp
别看实验结果相对值提升很大,很唬人,其实绝对值提升很小。但TIGER范式建模确是一个极大的创新,为生成式推荐打开了思路。

🧾 总结

  • TIGER是第一篇将 Generative Retrieval 自回归生成方式 应用于推荐系统的工作;
  • 它通过Semantic ID 和 Seq2Seq Transformer,突破embedding + ANN的传统限制;
  • 冷启动、多样性、效率和泛化能力上展现强优势;
  • 适用于大规模推荐场景,尤其是content-rich、item海量、频繁上线新品的平台。

参考

  • Recommender Systems with Generative Retrieval
  • 【谷歌2023】TIGER:基于生成式召回的推荐系统
  • NIPS‘23「谷歌」语义ID|TIGER:Recommender Systems with Generative Retrieval
http://www.xdnf.cn/news/1201141.html

相关文章:

  • Vim 编辑器工作模式及操作指南
  • 抗辐照芯片在低轨卫星星座CAN总线通讯及供电系统的应用探讨
  • 比特币运行机制全解析:区块链、共识算法与数字黄金的未来挑战
  • rapidocr v3.3.0发布了
  • OpenLayers 综合案例-轨迹回放
  • Torchv Unstrustured 文档解析库
  • C语言:函数
  • C/C++核心知识点详解
  • Qt C++ GUI 函数参数速查手册:基础与布局
  • RK3568 Linux驱动学习——Linux驱动开发准备工作
  • 【科研绘图系列】R语言绘制边际云雨图散点图
  • 基于大模型的预训练、量化、微调等完整流程解析
  • rust-模块树中引用项的路径
  • 1439-素数环2
  • 扩展组件(uni-ui)之uni-group
  • 硅基计划3.0 学习总结 肆 二叉树 初版
  • 疯狂星期四文案网第21天运营日记
  • 剑指offer第2版:双指针+排序+分治+滑动窗口
  • QT6 源,七章对话框与多窗体(17)用于辅助多文档 MDI 窗体设计 QMdiArea 的类 QMdiSubWindow:
  • MySQL 8.4 Windows 版安装记录与步骤参考
  • 《频率之光:群星之我》
  • mmap的调用层级与内核态陷入全过程
  • 依赖倒置原则 Dependency Inversion Principle - DIP
  • 不坑盒子突然不见了怎么办?
  • VILA系列论文解读
  • 详细解释一个ros的CMakeLists.txt文件
  • AI大模型前沿:Muyan-TTS开源零样本语音合成技术解析
  • 自然语言处理NLP (1)
  • 【I】题目解析
  • vmware虚拟机中显示“网络电缆被拔出“的解决方法