当前位置: 首页 > news >正文

知识链(Chain-of-Knowledge):通过对异构来源的动态知识适配实现大语言模型的知识落地

《CHAIN-OF-KNOWLEDGE: GROUNDING LARGE LANGUAGE MODELS VIA DYNAMIC KNOWLEDGE ADAPTING OVER HETEROGENEOUS SOURCES》这篇论文介绍了一个名为“chain-of-knowledge”(CoK)的框架,旨在通过动态整合来自异构知识源的信息来增强大型语言模型(LLMs)的性能,减少生成中的幻觉(hallucination)现象,并提高回答的准确性。论文详细描述了CoK框架的设计、实现和实验验证。

研究背景

大型语言模型(LLMs)如ChatGPT在语言生成方面表现出色,但存在一个主要挑战:幻觉(hallucination),即模型倾向于生成看似合理但事实上错误的文本。这种现象在需要事实知识回答的问题中尤为明显。尽管LLMs能够从训练数据中回忆信息,但有效更新或控制模型中的事实知识仍然具有挑战性。因此,研究者们尝试通过外部知识增强LLMs,以减少幻觉现象。

研究方法

CoK框架包含三个阶段:推理准备(reasoning preparation)、动态知识适应(dynamic knowledge adapting)和答案整合(answer consolidation)。

图2:我们提出的知识链(CoK)框架,包括:(I)推理准备、(II)动态知识适配,以及(III)答案整合。n.s.:自然语言句子(natural sentence)

表1:一个关于 SPARQL 推理理由的示例,包括生成的查询、执行结果以及格式化后的知识。
Knowl. 表示知识(knowledge)

  1. 推理准备阶段

    • 推理生成:使用少样本链式思考(CoT)提示生成推理步骤(rationales),即推理链中的中间推理单元/句子。

    • 知识领域选择:通过上下文学习识别与问题相关的知识领域,如事实、医学、物理和生物学等。

  2. 动态知识适应阶段

    • 知识检索:根据识别的知识领域,从相应的知识源中检索知识。这包括查询生成和执行。

      • 查询生成:根据知识源的类型,生成相应的查询语言,如SPARQL、SQL或自然语言句子。为此,提出了一个自适应查询生成器(AQG),它可以是微调模型(如LLaMA-2)或现成的LLM(如ChatGPT)。

      • 查询执行:执行生成的查询,获取并格式化知识,以便后续使用。

    • 推理纠正:基于检索到的知识,逐步纠正推理步骤,防止错误传播。

  3. 答案整合阶段

    • 使用问题和纠正后的推理步骤生成最终答案,以提高回答的准确性。

表2:在不同领域中的主要实验结果。Acc.:准确率(accuracy);E.M.:完全匹配率(exact match)

实验

实验部分评估了CoK框架在不同知识密集型任务上的性能,包括事实、医学、物理和生物学领域的任务。实验使用了多种数据集,如FEVER、HotpotQA、MedMCQA和MMLU等。

  • 与基线方法的比较:CoK在所有数据集上均优于或显著优于基线方法,包括标准提示(Standard)、链式思考(CoT)、链式思考自一致性(CoT-SC)和验证编辑(Verify-and-Edit,VE)。

  • 多领域知识源的必要性:实验表明,使用多个知识领域和源可以进一步提高性能。例如,在MedMCQA数据集上,仅使用医学领域知识时准确率为67.1%,而加入生物学领域知识后,准确率提升至70.5%。

  • 动态知识适应与并行编辑的对比:动态知识适应可以有效防止错误传播,从而提高性能。例如,在HotpotQA数据集上,动态知识适应的CoK准确率为34.1%,而并行编辑的准确率为31.2%。

  • 推理步骤的事实性改进:CoK显著提高了推理步骤的事实性。例如,在HotpotQA数据集上,CoK的第一步和第二步推理的事实性分别为66.3%和69.5%,而CoT-SC分别为54.3%和52.1%。

表3:基于检索的方法在 FEVER 和 HotpotQA 数据集上的结果

表4:在 MedMCQA 数据集上(3-shot 设置)使用单一或多种知识领域与来源的结果

关键结论

  • CoK框架通过动态整合异构知识源,有效减少了LLMs的幻觉现象,提高了回答的准确性。

  • AQG能够生成适用于不同类型知识源的查询,提高了知识检索的效率和准确性。

  • 动态知识适应方法可以有效防止错误传播,进一步提升了模型的性能。

  • CoK在多个领域的知识密集型任务上均取得了显著的性能提升,证明了其在减少LLMs幻觉方面的有效性。

讨论与局限性

尽管CoK取得了显著的性能提升,但论文也讨论了其局限性:

  • 知识源的可靠性:CoK依赖于外部知识源,如果知识源包含不可靠信息,可能会导致模型生成不准确的内容。

  • 知识检索的局限性:如果知识检索步骤无法检索到与问题相关的事实,CoK可能无法产生有用的输出。

  • LLMs的推理能力:CoK依赖于LLMs的推理能力,因此推理错误可能导致最终答案错误。

总体而言,CoK框架为减少LLMs的幻觉现象提供了一种有效的解决方案,并在多个领域的知识密集型任务上验证了其有效性。

http://www.xdnf.cn/news/106237.html

相关文章:

  • 数据通信学习笔记之OSPF的基础术语-距离矢量路由协议
  • 概率dp总结
  • 精准识别违规登录:Windows事件ID 4624全维度分析手册
  • 解决AWS中ELB的目标群组中出现不正常数
  • JAVA工程师面试题(一)
  • 在串的简单模式匹配中,当模式串位j与目标串位i比较时,两字符不相等,则i的位移方式是?
  • 快速生成安卓证书并打包生成安卓apk(保姆教程)
  • HCIP-OSPF综合实验
  • Linux网络编程 从集线器到交换机的网络通信全流程——基于Packet Tracer的深度实验
  • 第十篇:系统分析师第三遍——7、8章
  • Kubernetes服务自动注册Consul全攻略 - 基于consul-register的实践指南
  • vue3:十一、主页面布局(修改顶部导航栏样式-左侧,页面名称设置)
  • Vue3:大纲思路
  • 深入解析C++ STL Stack:后进先出的数据结构
  • Linux CAN 驱动浅析
  • YOLO11改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息,提高检测精度
  • 面试经历(一)雪花算法
  • gem5 笔记01 gem5 基本应用流程
  • 【敏矽微ME32G030系列】介绍、环境搭建、工程测试
  • 2022 年 9 月青少年软编等考 C 语言六级真题解析
  • 基于PaddleOCR对图片中的excel进行识别并转换成word(一)
  • 第50讲:AI+农业金融与风险预测场景实战
  • 【QT】信号与槽中多个按钮(pushbutton)共用一个槽函数的两种实现方式
  • 解决 Spring Boot + MyBatis 项目迁移到 PostgreSQL 后的数据类型不匹配问题
  • 全面解析 classification_report:评估分类模型性能的利器
  • 模型 观测者效应
  • 11、认识redis的sentinel
  • 程序员思维体操:TDD修炼手册
  • [LangGraph教程]LangGraph03——为聊天机器人添加记忆
  • 大模型评估方法与工程实践指南:从指标设计到全链路优化