当前位置：首页 > backend >正文

大模型Rag - 如何评估Rag

backend 2025/7/6 20:41:31

一.RAG流程与评估标准补充

RAG（Retrieval-Augmented Generation）是一种结合检索与生成的问答架构。为了确保系统效果，需要从以下三个角度对其评估：

回顾RAG流程

用户提出问题 → 系统检索相关上下文 → 基于上下文由大语言模型生成答案。

评估标准

上下文相关性
检索到的上下文是否紧密围绕用户问题展开？
是否包含解答问题所需的关键信息？
生成答案的忠实性（Faithfulness）
答案是否与提供的上下文信息保持事实一致性？
能否通过上下文信息进行推断？
答案相关性（Relevance）
是否直接、完整地回答了用户问题？
有无遗漏或冗余无关内容？

二.Rag 评估的三大步骤

第一步：构建测试数据集
评估的第一步，是准备一套测试数据集。这就好比考试要有一份试卷，RIG 系统需要回答什么问题？什么才算是正确答案？这些都要事先准备好。

一个典型的测试数据集通常包含两部分：

问题
标准答案

这一步的关键，是确保数据具有代表性，能够覆盖系统实际面临的各种场景。

第二步：选择评估指标
有了测试数据，还需要明确——用什么标准来评判系统的好坏？
这一步我们要选择合适的评估指标，常见的包括：
准确性（Accuracy）：回答是否正确？
相关性（Relevance）：回答和问题是否紧密相关？
完整性（Completeness）：信息是否全面？
一致性（Consistency）：内容是否自洽、符合逻辑？
鲁棒性（Robustness）：对输入变化是否敏感？

有些指标是通用的，也可以根据业务需求细化出更具体的子指标。选对指标，才能得到有价值的评估结果。

第三步：执行评估并计算得分
最后，我们进入评估的执行阶段。整个过程包括：

将测试数据集中的问题输入 RIG 系统；
获取系统生成的回答；
与标准答案进行对比；
按照前面选定的指标进行打分或计算。

评估的方式可以是自动化评估（如 BLEU、ROUGE、BERTScore 等）或人工评估（如打分表、人工判断）。
这一阶段的重点是：如何准确、合理地计算每个指标的数值，确保评估结果可信、可解释、可复现。

三.Ragas

Ragas 是一个专门用于评估 RAG（Retrieval-Augmented Generation）系统的开源工具包
Ragas 能评估哪些方面？
Ragas 提供了一整套面向 RAG 系统的评估指标，包括但不限于：

Faithfulness（忠实度）生成的答案是否忠于检索到的文档（有没有胡编乱造）
Answer Relevance（答案相关性）答案是否真正回答了问题
- Context Precision / Recall（上下文精度/召回）检索回来的文档是否相关、是否齐全
Context Relevance（上下文相关性）检索内容和问题是否匹配
Context-Answer Consistency 上下文与生成答案是否一致
这些指标都是专门针对 RAG 系统设计的，兼顾了检索质量和生成质量，比通用 NLP 指标更贴合实际需求。

** Ragas 的技术特点 **
支持自动化评估：基于 LLM（大模型）来对答案进行打分，省去了人工打分的繁琐；
适配多种 RAG 框架：如 LangChain、Haystack、LlamaIndex 等；
评估维度丰富
开箱即用的工具链：内置数据结构、评估流程、可视化接口等。

查看全文

http://www.xdnf.cn/news/456.html