混合策略实现 doc-doc 对称检索局限性与失败案例
对于 doc-doc
类型的检索,虽然在语义空间上保持了一致,但是在 query->doc
的过程中,受限于各种因素,仍然可能产生错误信息。
第一个场景是在 query
没有足够上下文时,HyDE
容易误解对应的词,从而产生错误的信息。
例如提问 Bel
是什么?,在没有执行 HyDE
混合策略而是直接查询得到答案如下:
Bel 是由 Paul Graham 在四年的时间里(2015年3月26日至2019年10月12日),用 Arc 语言编写的一种编程语言。它基于 John McCarthy 最初的 Lisp,但添加了额外的功能。它是一个以代码形式表达的规范,旨在成为计算的形式化模型,是图灵机的一种替代方案。
但是执行 HyDE
混合策略生成假设性 doc
如下:
Bel 是 Paul Graham 的化名,他是这段信息背后的作者,当时需要种子资金以维持生活,并且参与了一项交易,后来成为 Y Combinator 模式的典范。
在这个例子中,HyDE
在没有文档上下文的情况下错误地解释了 Bel
,这会导致完全检索不到相关的文档信息。
资料推荐
- 💡大模型中转API推荐
- ✨中转使用教程
- ✨模型优惠查询
第二个场景是一些 开放式的查询,HyDE
可能会产生偏见,例如提问 作者会如何评价艺术与工程的区别?,无需转换 query
即可得到正确的响应回答:
作者可能会说,艺术和工程是两种需要不同技能和方法的学科。艺术更注重表达和创造力,而工程更专注于解决问题和技术知识。作者还暗示,艺术学校并不总是提供与工程学校同等水平的严谨性,绘画学生常常被鼓励发展个性化风格,而不是学习绘画的基础知识。此外,作者可能会指出,工程学相比艺术能提供更多的财务稳定性,正如作者自己创业初期需要种子资金来生活的经历所证明的那样。
在使用HyDE
混合策略 转换 query
时,生成的 doc
如下:
作者可能会说,艺术比工程更持久和独立。他们提到,今天编写的软件几十年后就会过时,系统工作也不会长久。相比之下,他们指出绘画可以保留数百年,而且作为艺术家是可以谋生的。他们还提到,作为艺术家,你可以真正独立,不需要老板或研究资金。此外,他们指出艺术可以成为收入来源,适合那些无法接触传统就业形式的人,比如例子中的模特,能够通过为当地古董商建模和制作赝品而谋生。
总的来说,HyDE
是一个无监督的方法,可以帮助 RAG
提高效果。但是因为它不完全依赖于 embedding
而是强调问题的答案和查找内容的相似性,也存在一定的局限性。比如如果 LLM
无法理解用户问题,自然不会产生最佳结果,也可能导致错误增加。因此,需要根据场景决定是否选用此方法。
资料推荐
- 💡大模型中转API推荐
- ✨中转使用教程
- ✨模型优惠查询