当前位置: 首页 > ops >正文

北大:基于因果的LLM形式化推理

在这里插入图片描述

📖标题:AC-REASON: Towards Theory-Guided Actual Causality Reasoning with Large Language Models
🌐来源:arXiv, 2505.08750

🌟摘要

🔸实际因果关系 (AC) 是因果推理 (CR) 的一个基本方面,负责现实场景中的归因和责任分配。然而,现有的基于 LLM 的方法缺乏形式 AC 理论的基础,导致可解释性有限。
🔸因此,我们提出了 AC-REASON,这是一种半形式推理框架,用于识别 AC 场景中的因果相关事件,推断其形式因果因素(例如充分性、必要性和正态性)的值,并通过具有解释的理论引导算法回答 AC 查询。虽然 AC-REASON 没有明确构建因果图,但它对底层因果结构中的变量进行操作以支持有原则的推理。为了实现全面的评估,我们引入了 AC-BENCH,这是一个建立在并大幅扩展 Big-Bench 硬因果判断 (BBH-CJ) 的新基准。AC-BENCH 包含 ~1K 仔细注释的样本,每个样本都有详细的推理步骤,仅关注实际因果关系。
🔸案例研究表明,AC-BENCH 中的合成样本对 LLM 提出了更大的挑战。在BBH-CJ和AC-BENCH上的大量实验表明,AC-REASON始终比基线提高LLM的性能。在 BBH-CJ 上,所有测试的 LLM 均超过 69.60% 的平均人类评分者准确率,GPT-4 + AC-REASON 达到 75.04%。在 AC-BENCH 上,GPT-4 + AC-REASON 再次达到了 71.82% 的最高准确率。AC-BENCH 进一步可以对推理忠实度进行细粒度分析,表明只有 Qwen-2.5-72B-Instruct、Claude-3.5-Sonnet 和 GPT-4o 表现出忠实的推理,而 GPT-4 倾向于利用快捷方式。最后,我们的消融研究证明,将 AC 理论集成到 LLM 中非常有效,所提出的算法贡献了最显着的性能提升。项目在https://github.com/zhangyx0417/ac_reason

🛎️文章简介

🔸研究问题:如何将实际因果理论与大语言模型(LLM)结合,以实现更正式和可解释的实际因果推理?
🔸主要贡献:论文提出了AC-REASON框架,首次将实际因果理论与LLM整合,并构建了专注于实际因果关系的AC-BENCH基准。

📝重点思路

🔸提出了AC-REASON框架,利用算法将实际因果理论应用于LLM,提升因果推理的准确性和可解释性。
🔸构建了AC-BENCH基准,扩展了BBH-CJ数据集至约1000个样本,增加了更具挑战性和多样性的样本,以便更全面地评估因果推理能力。
🔸通过实验比较AC-REASON与其他基线模型,验证其在多种LLM上的性能提升。
🔸进行了消融研究,证明了将实际因果理论整合到LLM中的有效性。

🔎分析总结

🔸AC-REASON在多种LLM上实现了显著的性能提升,GPT-4与AC-REASON结合后,准确率达到75.04%,超越了人类平均水平69.60%。
🔸通过实验发现,闭源LLM在应用AC-REASON后获得的性能提升更为显著。
🔸实验表明,传统的零-shot和手动链式思维(CoT)方法未能有效提升因果推理的准确性,而AC-REASON在这些任务中展现了明显优势。
🔸细分分析显示,GPT-4倾向于依赖于简单的反事实推断,而不是基于实际因果理论的推理,提示了其在因果推理中的潜在不足。

💡个人观点

论文的创新点在于首次将实际因果理论系统性地应用于LLM的推理过程,不仅提升了模型的推理准确性,还增强了其可解释性。同时,AC-BENCH的构建为后续的研究提供了一个更为严谨和结构化的基准。

🧩附录

在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/6864.html

相关文章:

  • 进阶-数据结构部分:3、常用查找算法
  • NVC++ 介绍与使用指南
  • 很啰嗦,再次总结 DOM
  • CAPL Class: TcpSocket (此类用于实现 TCP 网络通信 )
  • 使用教程:8x16模拟开关阵列可级联XY脚双向导通自动化接线
  • Vue-键盘事件
  • Elasticsearch Fetch阶段面试题
  • 1.2 C++第一个程序
  • WORD个人简历单页326款模版分享下载
  • win32相关(字符编码)
  • 2025年PMP 学习十八 第11章 项目风险管理 (11.5~11.7)
  • 【读代码】端到端多模态语言模型Ultravox深度解析
  • 【2025年软考中级】第一章1.6 安全性、可靠性、性能评价
  • LabVIEW光谱信号仿真与数据处理
  • 中间网络工程师知识点5
  • 【单机版OCR】清华TH-OCR v9.0免费版
  • 模型量化AWQ和GPTQ哪种效果好?
  • 【vscode】解决vscode无法安装远程服务器插件问题,显示正在安装
  • Linux内存管理相关
  • 【C/C++】C++中constexpr与const的深度对比
  • OGG 更新表频繁导致进程中断,见鬼了?非也!
  • Halcon算子应用和技巧14
  • Kotlin与Java无缝融合:企业级开发的高效组合
  • Spring Boot 项目的计算机专业论文参考文献
  • 深度学习(第3章——亚像素卷积和可形变卷积)
  • Mysql 8.0.32 union all 创建视图后中文模糊查询失效
  • CF803G Periodic RMQ Problem Solution
  • shell脚本之条件判断,循环控制,exit详解
  • 系统架构设计(八):三层架构
  • Java 原生网络编程(BIO | NIO | Reactor 模式)