RAG系统中如何检测幻觉?
虽然我们的 RAG 系统通过将答案基于真实的医学证据来减少幻觉,但我们发现了一个关键的差距:即使有引用,系统仍然可能产生不可靠的输出。
想想看:仅仅因为一个系统可以引用来源,并不意味着它正确地使用了这些来源。
模型可能会:
- 从检索到的文档中提取不相关的信息
- 不适当地混合不同上下文中的事实
- 在实际上对答案不确定的情况下表现出自信
- 对同一个问题重复提问时给出不同的答案
在某些领域,这些微妙的错误可能比明显的错误更危险,因为它们更难被发现。一个完全错误的答案可能会立即触发审查,但一个部分错误但有正确引用的答案可能会在不知不觉中溜走。这就是为什么我们需要超越基本的 RAG,积极检测并标记潜在的幻觉。
这篇文章介绍了三种互补的技术,它们共同作用以捕捉不同类型的不安全输出:
- 来源归属:检测答案是否正确基于检索到的来源
- 一致性检查:识别不稳定或矛盾的响应
- 语义熵