当前位置: 首页 > backend >正文

布隆过滤器(Bloom Filter)简介

布隆过滤器是一种空间效率高、概率型的数据结构,用于快速判断一个元素是否可能存在于集合中。它的特点是:

  • 优点:占用内存极少,查询效率高(O(k),k为哈希函数数量)。

  • 缺点:有一定的误判率(False Positive,可能误报存在),且不支持删除元素

核心应用场景
  1. 缓存穿透防护:快速过滤掉不存在的数据请求,避免直接查询数据库。

  2. 爬虫URL去重:判断URL是否已爬取过。

  3. 垃圾邮件过滤:判断邮件是否在黑名单中。


布隆过滤器的实现步骤

以下是手动实现布隆过滤器的关键步骤(以Java为例):

1. 初始化布隆过滤器
  • 定义一个位数组(Bit Array),初始所有位为0。

  • 选择多个哈希函数(如MurmurHash、SHA-1),确保均匀分布。

import java.util.BitSet;
import java.util.function.ToIntFunction;public class BloomFilter {private final BitSet bitSet;private final int size;private final ToIntFunction<String>[] hashFunctions;public BloomFilter(int size, ToIntFunction<String>... hashFunctions) {this.bitSet = new BitSet(size);this.size = size;this.hashFunctions = hashFunctions;}
}
2. 添加元素
  • 对元素执行所有哈希函数,将对应的位数组位置设为1。

public void add(String element) {for (ToIntFunction<String> hashFunction : hashFunctions) {int hash = Math.abs(hashFunction.applyAsInt(element)) % size;bitSet.set(hash);}
}
3. 判断元素是否存在
  • 对元素执行所有哈希函数,检查对应位是否均为1。

    • 若有一位为0:元素一定不存在。

    • 若全部为1:元素可能存在(可能有误判)。

public boolean mightContain(String element) {for (ToIntFunction<String> hashFunction : hashFunctions) {int hash = Math.abs(hashFunction.applyAsInt(element)) % size;if (!bitSet.get(hash)) {return false; // 一定不存在}}return true; // 可能存在(可能有误判)
}
4. 选择哈希函数和位数组大小
  • 哈希函数数量(k):通常取 k = (m/n) * ln(2),其中 m 是位数组大小,n 是预期元素数量。

  • 位数组大小(m):越大误判率越低,但占用内存越多。公式:
    m = - (n * ln(p)) / (ln(2)^2)
    p 为可接受的误判率,如0.01)


示例:用布隆过滤器解决缓存穿透

// 初始化布隆过滤器(假设预期存储10000个元素,误判率1%)
BloomFilter bloomFilter = new BloomFilter(95850,  // m ≈ -10000 * ln(0.01) / (ln(2)^2)str -> str.hashCode(),str -> MurmurHash.hash32(str)
);// 预热数据:将所有存在的键加入布隆过滤器
database.getAllKeys().forEach(bloomFilter::add);// 查询前先检查布隆过滤器
public Employee getEmployee(int id) {String key = "emp_" + id;if (!bloomFilter.mightContain(key)) {return null; // 直接返回,避免查询数据库}return cache.get(key, () -> database.query(id));
}

注意事项

  1. 误判率权衡

    • 若业务允许少量误判(如爬虫去重),可接受较高误判率以节省内存。

    • 若需精确判断(如金融场景),需结合数据库二次验证。

  2. 不支持删除

    • 经典布隆过滤器无法删除元素(因多位共享)。需改用计数布隆过滤器(Counting Bloom Filter)

  3. 现成工具

    • 推荐使用现成库(如Guava的BloomFilter或Redis的BF.ADD/BF.EXISTS),避免重复造轮子。

布隆过滤器通过多哈希函数+位数组的巧妙设计,以极小内存实现高效存在性判断,是解决缓存穿透的经典方案。实际应用中需根据业务需求调整参数(如mk),并注意其局限性(误判、不可删除)。

http://www.xdnf.cn/news/2470.html

相关文章:

  • Vue Router 核心指南:构建高效单页应用的导航艺术
  • 用Python做有趣的AI项目4:AI 表情识别助手
  • Linux:基础IO 文件系统
  • 吴恩达深度学习作业之风格转移Neural Style Transfer (pytorch)
  • 【创新实训项目博客】数据库搭建
  • pikachu靶场-敏感信息泄露
  • 深圳市富力达:SAP一体化管理助力精密制造升级 | 工博科技SAP客户案例
  • 在Azure Databricks中实现缓慢变化维度(SCD)的三种类型
  • 服务器不能复制粘贴文件的处理方式
  • 信竞中的数学(一):质数
  • 关于 React Fiber 架构、Hooks 原理
  • 机器学习的一百个概念(13)布里尔分数
  • OkHttp源码梳理
  • 数字后端设计 (六):验证——给芯片做「超严格体检」
  • 苍穹外卖(缓存商品、购物车)
  • 基于Qt5的蓝牙打印开发实战:从扫描到小票打印的全流程
  • 关系型数据库PostgreSQL vs MySQL 深度对比:专业术语+白话解析+实战案例
  • Tomcat的安装与配置
  • 高能效计算:破解算力增长与能源约束的科技密码
  • JavaScript 函数与算法性能优化
  • 微软GraphRAG的安装和在RAG中的使用体会
  • Javase 基础入门 —— 06 final + 单例
  • 游戏哪些接口会暴露源IP?_深度解析服务器通信安全隐患
  • Apache Sqoop数据采集问题
  • 极客时光:第二部分——用QLoRA、RunPod和Cursor以超低成本微调DeepSeek-7B打造你的聊天机器人
  • WHAT - 《成为技术领导者》思考题(第二章)
  • 加速用户体验:Amazon CloudFront 实践与优化技巧
  • PDFMathTranslate:让数学公式在PDF翻译中不再痛苦
  • 【Android】dialogX对话框框架
  • 【C++ 类和数据抽象】消息处理示例(2)