当前位置：首页 > web >正文

RAG智能问答为什么需要进行Rerank?

web 2025/8/25 16:27:49

在构建基于大语言模型（LLM）的智能问答系统时，很多人都会用到“向量数据库 + 检索 + 生成”这样的经典架构。这个流程通常叫 RAG（Retrieval-Augmented Generation）。其中，rerank 是一个非常关键、但又容易被忽视的环节。

1.Rerank 的定义

2. 为什么需要 Rerank？

3.Rerank模型

BGE-Rerank

Cohere Rerank

两者对比

字面意思，rerank 就是“重新排序”。在智能问答的场景里，它通常指：

你可以把它理解成：

向量检索 = 粗筛
Rerank = 精筛

单靠向量检索，其实有几个问题：

这时 rerank 就能起作用，它会基于更复杂的模型（比如 cross-encoder），去理解“问题”和“候选文档”的深层语义关系，把最有价值的片段排到最前面。提升RAG召回的质量。

因此，总结起来，rerank 的作用主要有三点：

提升相关性
只把真正和问题高度相关的片段交给大模型，避免无效信息干扰。
减少幻觉
当输入给 LLM 的上下文更精准时，它更容易生成可靠答案，而不是胡编乱造。
提高效率
向量检索可以放宽（比如 Top-50），保证不漏掉潜在答案；
rerank 之后只保留最优的 Top-5，这样既保证了召回率，又减轻了 LLM 的负担。

BGE-Rerank和Cohere Rerank是两种广泛使用的重排序模型，它们在检索增强生成（RAG）系统、搜索引擎优化和问答系统中表现优异。

由北京智源人工智能研究院（BAAI）开源发布。基于Transformer的Cross-Encoder结构，直接计算查询（Query）与文档（Document）的交互相关性得分。

训练数据：支持多语言（主要中英），提供bge-reranker-base和bge-reranker-large两个版本，后者在精度上更优。

部署方式：可本地部署。适合对成本敏感或需要私有化部署的场景。

在BGE-Rerank模型中，相关性分数scores是一个未归一化的对数几率（logits）值，范围没有固定的上限或下限（不像某些模型限制在0-1）。不过BGE-Rerank的分数通常落在以下范围：高相关性：3.0~10.0 中等相关性：0.0~3.0 低相关性/不相关：负数（如-5.0以下）

由Cohere公司提供的闭源，云端商业API服务。基于专有的深度学习模型，支持多语言（如rerank-multilingual-v3.0）。

训练数据：优化了语义匹配，特别适用于混合检索（如结合BM25和向量检索）后的结果优化。

使用方式：通过API调用，集成到LangChain、LlamaIndex等框架中。

优势： • 简单易用，适合快速集成到现有系统。 • 在英文和多语言任务中表现优异。Cohere Rerank的API返回的是归一化后的相关性分数（如0-1），更易解释。