当前位置：首页 > ops >正文

北大：基于因果的LLM形式化推理

ops 2025/8/22 5:31:00

在这里插入图片描述

📖标题：AC-REASON: Towards Theory-Guided Actual Causality Reasoning with Large Language Models
🌐来源：arXiv, 2505.08750

🌟摘要

🔸实际因果关系 (AC) 是因果推理 (CR) 的一个基本方面，负责现实场景中的归因和责任分配。然而，现有的基于 LLM 的方法缺乏形式 AC 理论的基础，导致可解释性有限。
🔸因此，我们提出了 AC-REASON，这是一种半形式推理框架，用于识别 AC 场景中的因果相关事件，推断其形式因果因素（例如充分性、必要性和正态性）的值，并通过具有解释的理论引导算法回答 AC 查询。虽然 AC-REASON 没有明确构建因果图，但它对底层因果结构中的变量进行操作以支持有原则的推理。为了实现全面的评估，我们引入了 AC-BENCH，这是一个建立在并大幅扩展 Big-Bench 硬因果判断 (BBH-CJ) 的新基准。AC-BENCH 包含 ~1K 仔细注释的样本，每个样本都有详细的推理步骤，仅关注实际因果关系。
🔸案例研究表明，AC-BENCH 中的合成样本对 LLM 提出了更大的挑战。在BBH-CJ和AC-BENCH上的大量实验表明，AC-REASON始终比基线提高LLM的性能。在 BBH-CJ 上，所有测试的 LLM 均超过 69.60% 的平均人类评分者准确率，GPT-4 + AC-REASON 达到 75.04%。在 AC-BENCH 上，GPT-4 + AC-REASON 再次达到了 71.82% 的最高准确率。AC-BENCH 进一步可以对推理忠实度进行细粒度分析，表明只有 Qwen-2.5-72B-Instruct、Claude-3.5-Sonnet 和 GPT-4o 表现出忠实的推理，而 GPT-4 倾向于利用快捷方式。最后，我们的消融研究证明，将 AC 理论集成到 LLM 中非常有效，所提出的算法贡献了最显着的性能提升。项目在https://github.com/zhangyx0417/ac_reason

🛎️文章简介

🔸研究问题：如何将实际因果理论与大语言模型（LLM）结合，以实现更正式和可解释的实际因果推理？
🔸主要贡献：论文提出了AC-REASON框架，首次将实际因果理论与LLM整合，并构建了专注于实际因果关系的AC-BENCH基准。

📝重点思路

🔸提出了AC-REASON框架，利用算法将实际因果理论应用于LLM，提升因果推理的准确性和可解释性。
🔸构建了AC-BENCH基准，扩展了BBH-CJ数据集至约1000个样本，增加了更具挑战性和多样性的样本，以便更全面地评估因果推理能力。
🔸通过实验比较AC-REASON与其他基线模型，验证其在多种LLM上的性能提升。
🔸进行了消融研究，证明了将实际因果理论整合到LLM中的有效性。

🔎分析总结

🔸AC-REASON在多种LLM上实现了显著的性能提升，GPT-4与AC-REASON结合后，准确率达到75.04%，超越了人类平均水平69.60%。
🔸通过实验发现，闭源LLM在应用AC-REASON后获得的性能提升更为显著。
🔸实验表明，传统的零-shot和手动链式思维（CoT）方法未能有效提升因果推理的准确性，而AC-REASON在这些任务中展现了明显优势。
🔸细分分析显示，GPT-4倾向于依赖于简单的反事实推断，而不是基于实际因果理论的推理，提示了其在因果推理中的潜在不足。