当前位置：首页 > news >正文

基于KG生成语料增强解决RAG问答幻觉问题的简单框架-WalkRetrieve

news 2025/6/12 21:46:01

Walk&Retrieve基于知识图谱，利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单，核心点在于零样本RAG的语料库生成，下面来看看，供参考。

方法架构

语料生成

在框架中，语料生成该方法的核心步骤。该阶段从知识图谱中提取相关信息，并将其转化为适合LLM处理的文本格式。语料生成包括以下几个步骤：基于图的遍历、知识表示和索引。

1.基于图的遍历

随机游走：随机游走是一种随机过程，从一个节点开始，每次以均匀的概率选择当前节点的邻居节点进行移动。

其中， $\left|N\left(v_{i}\right)\right|$ 表示节点 $v_i$ 的邻居数量。
对于每个节点 $\in V$ ，生成 $n_w$ 条长度为 $l$ 的随机游走路径 $\mathcal{W}_{l}$ 。最终的语料库 $C_{RW}$ 是所有节点的随机游走路径的集合。
- 优点：简单易行，适用于大规模图谱。
- 缺点：可能会产生重复路径和噪声。
广度优先搜索-BFS游走：BFS是一种图遍历算法，从根节点开始，逐层访问其邻居节点。对于每个根节点 $v_r \in V$ ，构建一个层次结构，每一层的节点表示与根节点的最短路径距离。然后，按照层次顺序进行遍历，确保每个节点只被访问一次。

其中， $L_0 = \{v_r\}$ ， $d$ 是最大深度。
- 优点：避免了重复路径，生成的游走路径更加多样化。
- 缺点：计算复杂度较高，尤其是在深层遍历时。

2.知识表示

LLM需要文本输入，需要将提取的图遍历路径转换为自然语言描述。使用预定义的提示模板，将每个节点的游走路径转化为自然语言句子。例如，对于一个随机游走的路径 $v_1, r_1, v_2, r_2, v_3)$ ，可以生成类似“ $v_1$ 通过关系 $r_1$ 连接到 $v_2$ ，而 $v_2$ 通过关系 $r_2$ 连接到 $v_3$ ”的句子。