北大:基于因果的LLM形式化推理
📖标题:AC-REASON: Towards Theory-Guided Actual Causality Reasoning with Large Language Models
🌐来源:arXiv, 2505.08750
🌟摘要
🔸实际因果关系 (AC) 是因果推理 (CR) 的一个基本方面,负责现实场景中的归因和责任分配。然而,现有的基于 LLM 的方法缺乏形式 AC 理论的基础,导致可解释性有限。
🔸因此,我们提出了 AC-REASON,这是一种半形式推理框架,用于识别 AC 场景中的因果相关事件,推断其形式因果因素(例如充分性、必要性和正态性)的值,并通过具有解释的理论引导算法回答 AC 查询。虽然 AC-REASON 没有明确构建因果图,但它对底层因果结构中的变量进行操作以支持有原则的推理。为了实现全面的评估,我们引入了 AC-BENCH,这是一个建立在并大幅扩展 Big-Bench 硬因果判断 (BBH-CJ) 的新基准。AC-BENCH 包含 ~1K 仔细注释的样本,每个样本都有详细的推理步骤,仅关注实际因果关系。
🔸案例研究表明,AC-BENCH 中的合成样本对 LLM 提出了更大的挑战。在BBH-CJ和AC-BENCH上的大量实验表明,AC-REASON始终比基线提高LLM的性能。在 BBH-CJ 上,所有测试的 LLM 均超过 69.60% 的平均人类评分者准确率,GPT-4 + AC-REASON 达到 75.04%。在 AC-BENCH 上,GPT-4 + AC-REASON 再次达到了 71.82% 的最高准确率。AC-BENCH 进一步可以对推理忠实度进行细粒度分析,表明只有 Qwen-2.5-72B-Instruct、Claude-3.5-Sonnet 和 GPT-4o 表现出忠实的推理,而 GPT-4 倾向于利用快捷方式。最后,我们的消融研究证明,将 AC 理论集成到 LLM 中非常有效,所提出的算法贡献了最显着的性能提升。项目在https://github.com/zhangyx0417/ac_reason
🛎️文章简介
🔸研究问题:如何将实际因果理论与大语言模型(LLM)结合,以实现更正式和可解释的实际因果推理?
🔸主要贡献:论文提出了AC-REASON框架,首次将实际因果理论与LLM整合,并构建了专注于实际因果关系的AC-BENCH基准。
📝重点思路
🔸提出了AC-REASON框架,利用算法将实际因果理论应用于LLM,提升因果推理的准确性和可解释性。
🔸构建了AC-BENCH基准,扩展了BBH-CJ数据集至约1000个样本,增加了更具挑战性和多样性的样本,以便更全面地评估因果推理能力。
🔸通过实验比较AC-REASON与其他基线模型,验证其在多种LLM上的性能提升。
🔸进行了消融研究,证明了将实际因果理论整合到LLM中的有效性。
🔎分析总结
🔸AC-REASON在多种LLM上实现了显著的性能提升,GPT-4与AC-REASON结合后,准确率达到75.04%,超越了人类平均水平69.60%。
🔸通过实验发现,闭源LLM在应用AC-REASON后获得的性能提升更为显著。
🔸实验表明,传统的零-shot和手动链式思维(CoT)方法未能有效提升因果推理的准确性,而AC-REASON在这些任务中展现了明显优势。
🔸细分分析显示,GPT-4倾向于依赖于简单的反事实推断,而不是基于实际因果理论的推理,提示了其在因果推理中的潜在不足。
💡个人观点
论文的创新点在于首次将实际因果理论系统性地应用于LLM的推理过程,不仅提升了模型的推理准确性,还增强了其可解释性。同时,AC-BENCH的构建为后续的研究提供了一个更为严谨和结构化的基准。
🧩附录