当前位置: 首页 > ds >正文

召回12:曝光过滤 Bloom Filter

曝光过滤问题

如果用户看过某个物品,就不再把该物品曝光给用户。重复观看同一个物品会降低用户的体验,但是在例如 youtube 之类的长视频平台,往往不适用曝光过滤。
对于每个用户,记录最近 1 个月内曝光给他的物品(小红书只会召回最近 1 个月以内的笔记,因此只需要记录 1 个月的曝光历史)。记录更长时间曝光的物品收益不大,资源消耗很大,性价比不高。
对于每个召回的物品,判断是否已经被曝光过,排除掉已经曝光过的物品。
一个用户看过 n n n 个物品,本次召回 r r r 个物品,如果暴力对比,需要 O ( n r ) O(nr) O(nr) 的时间。太慢!使用 Bloom Filter 进行优化

Bloom Filter

判断一个物品 ID 是否是已曝光的物品
判断为 no,一定不在。
判断为 yes,很可能在,但是有误伤的可能性。
如果只留下 no 的,虽然可能会有误伤,但是一定会把已曝光的排除。在海量数据下这个误伤的影响是微乎其微的。
判断方法:设长度为 m m m 的二进制向量,使用 k k k 个哈希函数,将已曝光的物品使用 k k k 个哈希函数所得到位置全部置为 1,如果新物品使用这 k k k 个哈希函数有至少一个位置不为 1,那么这个物品一定还未曝光,这时误伤概率也很小了。很显然, 物品个数 n n n 越大越容易误伤,向量长度 m m m 越大哈希碰撞概率越小。误伤的概率为 δ ≈ ( 1 − exp ⁡ ( − k n m ) ) k \delta \approx \left( 1 - \exp \left( - \frac{kn}{m} \right) \right)^{k} δ(1exp(mkn))k ,则最优参数为 k = 1.44 ⋅ ln ⁡ ( 1 δ ) k = 1.44 \cdot \ln\left( \frac{1}{\delta} \right) k=1.44ln(δ1) m = 2 n ⋅ ln ⁡ ( 1 δ ) m = 2n \cdot \ln\left( \frac{1}{\delta} \right) m=2nln(δ1)
在这里插入图片描述
实时流处理一定要,否则可能会出现用户两次刷新出现同样的内容。

Bloom Filter的缺点

只支持添加物品,不支持删除物品。从集合中移除物品,无法消除其对向量的影响。每天都需要移除时间大于 1 个月的物品,想要删除一个物品,需要重新计算二进制向量,这就有些慢了。

http://www.xdnf.cn/news/6858.html

相关文章:

  • 03算法学习_977、有序数组的平方
  • 经典案例 | 筑基与跃升:解码制造企业产供销协同难题
  • Go语言之路————并发
  • 【基础】Windows开发设置入门5:WinGet开发者完全指南(AI整理)
  • Spring 框架中适配器模式的五大典型应用场景
  • 轨道炮--范围得遍历,map巧统计
  • 强化学习算法实战:一个例子实现sarsa、dqn、ddqn、qac、a2c、trpo、ppo
  • RAGFlow升级到最新0.18.0新手指南
  • 【全解析】EN18031 标准下的 AUM 身份认证机制[上篇]
  • 国产三维CAD皇冠CAD(CrownCAD)建模教程:插接箱
  • B2C 商城转型指南:传统企业如何用 ZKmall模板商城实现电商化
  • 线上问题排查:JVM OOM问题如何排查和解决
  • Protobuf——Protocol Buffer详解(1)
  • RFID系统集成业务中,通过产业链上下游挖掘客户
  • Kubernetes + GlusterFS + Heketi 动态卷管理实践 !
  • 中大型水闸安全监测系统解决方案
  • 深度学习驱动下的目标检测技术:原理、算法与应用创新(三)
  • 【C#】 lock 关键字
  • 【笔记】导出Conda环境依赖以复现项目虚拟环境
  • 深度学习驱动下的目标检测技术:原理、算法与应用创新(二)
  • LLM学习笔记(七)注意力机制
  • C# NX二次开发-实体离散成点
  • 使用pyinstaller生成exe时,如何指定生成文件名字
  • Linux!启动~
  • WHAT - 前端同构 Isomorphic Javascript
  • Ubuntu系统安装VsCode
  • UAI 2025重磅揭晓:录取数据公布(附往届数据)
  • Python字符串常用内置函数详解
  • 独立开发者利用AI工具快速制作产品MVP
  • Qt功能区:Ribbon使用