当前位置：首页 > news >正文

知识链（Chain-of-Knowledge）：通过对异构来源的动态知识适配实现大语言模型的知识落地

news 2025/7/28 16:19:40

《CHAIN-OF-KNOWLEDGE: GROUNDING LARGE LANGUAGE MODELS VIA DYNAMIC KNOWLEDGE ADAPTING OVER HETEROGENEOUS SOURCES》这篇论文介绍了一个名为“chain-of-knowledge”（CoK）的框架，旨在通过动态整合来自异构知识源的信息来增强大型语言模型（LLMs）的性能，减少生成中的幻觉（hallucination）现象，并提高回答的准确性。论文详细描述了CoK框架的设计、实现和实验验证。

研究背景

大型语言模型（LLMs）如ChatGPT在语言生成方面表现出色，但存在一个主要挑战：幻觉（hallucination），即模型倾向于生成看似合理但事实上错误的文本。这种现象在需要事实知识回答的问题中尤为明显。尽管LLMs能够从训练数据中回忆信息，但有效更新或控制模型中的事实知识仍然具有挑战性。因此，研究者们尝试通过外部知识增强LLMs，以减少幻觉现象。

研究方法

CoK框架包含三个阶段：推理准备（reasoning preparation）、动态知识适应（dynamic knowledge adapting）和答案整合（answer consolidation）。

图2：我们提出的知识链（CoK）框架，包括：（I）推理准备、（II）动态知识适配，以及（III）答案整合。n.s.：自然语言句子（natural sentence）

表1：一个关于 SPARQL 推理理由的示例，包括生成的查询、执行结果以及格式化后的知识。
Knowl. 表示知识（knowledge）

推理准备阶段：
- 推理生成：使用少样本链式思考（CoT）提示生成推理步骤（rationales），即推理链中的中间推理单元/句子。
- 知识领域选择：通过上下文学习识别与问题相关的知识领域，如事实、医学、物理和生物学等。
动态知识适应阶段：
- 知识检索：根据识别的知识领域，从相应的知识源中检索知识。这包括查询生成和执行。
  - 查询生成：根据知识源的类型，生成相应的查询语言，如SPARQL、SQL或自然语言句子。为此，提出了一个自适应查询生成器（AQG），它可以是微调模型（如LLaMA-2）或现成的LLM（如ChatGPT）。
  - 查询执行：执行生成的查询，获取并格式化知识，以便后续使用。
- 推理纠正：基于检索到的知识，逐步纠正推理步骤，防止错误传播。
答案整合阶段：
- 使用问题和纠正后的推理步骤生成最终答案，以提高回答的准确性。

表2：在不同领域中的主要实验结果。Acc.：准确率（accuracy）；E.M.：完全匹配率（exact match）

实验

实验部分评估了CoK框架在不同知识密集型任务上的性能，包括事实、医学、物理和生物学领域的任务。实验使用了多种数据集，如FEVER、HotpotQA、MedMCQA和MMLU等。

与基线方法的比较：CoK在所有数据集上均优于或显著优于基线方法，包括标准提示（Standard）、链式思考（CoT）、链式思考自一致性（CoT-SC）和验证编辑（Verify-and-Edit，VE）。
多领域知识源的必要性：实验表明，使用多个知识领域和源可以进一步提高性能。例如，在MedMCQA数据集上，仅使用医学领域知识时准确率为67.1%，而加入生物学领域知识后，准确率提升至70.5%。
动态知识适应与并行编辑的对比：动态知识适应可以有效防止错误传播，从而提高性能。例如，在HotpotQA数据集上，动态知识适应的CoK准确率为34.1%，而并行编辑的准确率为31.2%。
推理步骤的事实性改进：CoK显著提高了推理步骤的事实性。例如，在HotpotQA数据集上，CoK的第一步和第二步推理的事实性分别为66.3%和69.5%，而CoT-SC分别为54.3%和52.1%。