当前位置：首页 > backend >正文

BM25：概率检索框架下的经典相关性评分算法

backend 2025/8/26 20:40:47

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1. 背景与定义

BM25 是由信息检索先驱 Stephen Robertson 和 Karen Spärck Jones 于 20世纪70-80年代 提出的概率相关性模型，全称 Okapi BM25（因首次在Okapi系统中实现得名）。其核心目标是为文档与查询的相关性提供可量化的评分机制，基于以下假设：

词频（TF）与逆文档频率（IDF）的交互能有效表征语义相关性，且需通过饱和函数与文档长度归一化优化传统TF-IDF的局限性。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.TF-IDF：信息检索与文本挖掘的统计权重基石
19.HumanEval：代码生成模型的“黄金标尺”
18.稠密检索：基于神经嵌入的高效语义搜索范式
17.Haystack：面向大模型应用的模块化检索增强生成（RAG）框架
16.CodePlan：基于代码形式规划的大模型结构化推理新范式
15.CodeGen：面向多轮程序合成的开源代码大语言模型
14.束搜索（Beam Search）：原理、演进与挑战
13.RAGFoundry：面向检索增强生成的模块化增强框架
12.TyDi QA：面向语言类型多样性的信息检索问答基准
11.BBH详解:面向大模型的高阶推理评估基准与数据集分析
10.RepoCoder：仓库级代码补全的迭代检索生成框架解析与应用前沿
9.RAGAS：检索增强生成系统的无参考评估框架与技术解析
8.Self-RAG：基于自我反思的检索增强生成框架技术解析
7.DocBench：面向大模型文档阅读系统的评估基准与数据集分析
6.哲学中的主体性：历史演进、理论范式与当代重构
5.FLAN-T5：大规模指令微调的统一语言模型框架
4.Do-Calculus：因果推断的演算基础与跨领域应用
3.同质无向加权图：理论基础、算法演进与应用前沿
2.大模型智能体(Agent)技术全景：架构演进、协作范式与应用前沿
1.GraphRAG：基于知识图谱的检索增强生成技术解析

2. 算法原理与公式解析

2.1 核心公式

BM25评分函数由三部分构成：
$Score(Q,D)=∑i=1nIDF(qi)⋅fi⋅(k1+1)fi+k1⋅(1−b+b⋅∣D∣avgdl)\text{Score}(Q, D) = \sum_{i=1}^{n} \text{IDF}(q_i) \cdot \frac{f_i \cdot (k_1 + 1)}{f_i + k_1 \cdot \left(1 - b + b \cdot \frac{|D|}{\text{avgdl}}\right)}$

变量说明：
- Q：查询（Query），包含词项 $q1,q2,…,qnq_1, q_2, \ldots, q_n$
- D：文档（Document）
- f_i：词项 $q_i$ 在文档 D 中的词频（Term Frequency, TF）
- |D|：文档长度（以词数计）
- avgdl：语料库中文档平均长度
调节参数：
- k1：控制词频饱和度（默认值1.2~2.0），值越低则词频贡献越快饱和
- b：控制文档长度归一化强度（默认值0.75），b=0时忽略长度影响

2.2 核心组件功能

组件	数学表达	物理意义
逆文档频率（IDF）	$log⁡N−n(qi)+0.5n(qi)+0.5\log \frac{N - n(q_i) + 0.5}{n(q_i) + 0.5}$	惩罚高频词，提升稀有词权重（ $N$ 为总文档数， $n(q_i)$ 为包含 $q_i$ 的文档数）
饱和TF	$fi⋅(k1+1)fi+K\frac{f_i \cdot (k_1 + 1)}{f_i + K}$	限制高频词贡献，避免长文档主导结果（$K = k_1 \cdot (1 - b + b \cdot
长度归一化	$1 - b + b \cdot	D

图1：饱和TF函数效果
当 k1=1.2 时，词频 $f_i$ 从0增至10，TF贡献从0快速饱和至1.8；而传统TF-IDF呈线性增长，易被高频词支配。

3. 理论基础：概率检索框架（PRF）

BM25的数学基础源于贝叶斯决策理论与二值独立模型（BIM）：

概率排序原则（PRP）：
文档排序应基于其相关概率 $P (R ∣ D)$ ，通过贝叶斯公式转化为 $P (D ∣ R) / P (D ∣ NR)$ 的似然比。
BIM到BM25的演进：
- BIM缺陷：仅考虑词项出现与否（二值），忽略词频与文档长度。
- BM25改进：引入饱和TF与长度归一化，并扩展IDF平滑策略（+0.5避免零值）。

4. 关键变体与改进

变体	核心改进	解决痛点
BM25L	降低长文档惩罚强度，提升长文本检索效果	BIM对长文档的过惩罚
BM25+	添加项 $δ\delta$ 避免低频词得分为负	低频词在短文档中的权重衰减
BM25F	支持多字段加权（如标题权重 > 正文）	结构化文档的域重要性差异
BM25-adpt	动态调整参数 $k 1$ 和 $b$ 适配不同语料	参数依赖人工调优

💡 实验结论：在TREC等基准上，BM25变体间性能差异较小（MAP波动<3%），参数优化与词干提取对效果的影响大于算法本身。

5. 应用场景与性能对比

5.1 实际应用

搜索引擎：Elasticsearch、Lucene默认排序算法。
混合检索（RAG）：BM25+稠密向量检索，在生物医学声明验证中精确率提升12%（PubMed语料）。
数据库扩展：PostgreSQL的pg_bm25扩展支持稀疏向量点积计算。

5.2 权威基准表现

任务	BM25	稠密检索	优势分析
MS MARCO（MRR@10）	33.3%	29.8%	关键词匹配场景精准度高
NQ（Top-20 Acc）	78.9%	75.2%	对事实型问答鲁棒性强
生物医学声明验证	精确率82.1%	76.5%	结构化术语检索优势显著

6. 局限性及融合深度学习

语义局限：
无法理解同义性与上下文（如“苹果”公司 vs 水果），需结合BERT等语义模型。
改进方案：
- NLP增强权重：BERT预测查询词重要性，动态调整IDF权重（专利CN30070666）。
- 混合检索：BM25召回 + 交叉编码器精排，在QA任务中F1提升7%。

核心论文

Robertson, S. E., & Walker, S. (1994).
Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval.
Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '94).
→ 论文地址: Springer Link (需机构访问)

💎 总结

BM25作为概率检索模型的奠基性工作，通过饱和TF与长度归一化机制，解决了TF-IDF在词频线性增长与文档长度偏差上的缺陷。尽管在语义理解上存在局限，但其高效性、可解释性及无缝兼容深度学习的特性，使其仍是搜索引擎的核心组件（Elasticsearch/Lucene）与RAG系统的关键召回层。