当前位置：首页 > ds >正文

【AI论文】AdaCoT：基于强化学习的帕累托最优自适应思维链触发机制

ds 2025/9/6 13:34:29

摘要：大型语言模型（LLMs）已经展示了卓越的能力，但往往在需要复杂推理的任务上面临挑战。虽然思想链（CoT）提示显著增强了推理能力，但它不加选择地为所有查询生成冗长的推理步骤，导致计算成本高昂且效率低下，特别是对于较简单的输入。为了解决这一关键问题，我们引入了AdaCoT（自适应思维链），这是一种新颖的框架，使LLM能够自适应地决定何时调用CoT。 AdaCoT将自适应推理视为一个帕累托优化问题，该问题寻求在模型性能与CoT调用相关的成本（频率和计算开销）之间取得平衡。我们提出了一种基于强化学习（RL）的方法，特别是利用近端策略优化（PPO），通过调整惩罚系数来动态控制CoT触发决策边界，从而使模型能够根据隐式查询复杂性确定CoT的必要性。一项关键的技术贡献是选择性损失掩蔽（SLM），旨在抵消多阶段强化学习训练过程中的决策边界崩溃，确保鲁棒和稳定的自适应触发。实验结果表明，AdaCoT成功地导航了帕累托前沿，大大减少了不需要复杂推理的查询的CoT使用。例如，在我们的生产流量测试集中，AdaCoT 将 CoT 触发率降低到 3.18%，并将平均响应令牌减少了 69.06%，同时在复杂任务中保持了高性能。Huggingface链接：Paper page，论文链接：2505.11896

研究背景和目的

研究背景

随着自然语言处理技术的飞速发展，大型语言模型（LLMs）在各种任务中展现出了惊人的能力，如问答、创意写作和摘要生成等。然而，尽管这些模型在广泛的任务上取得了显著成就，它们在处理需要复杂推理的任务时仍面临诸多挑战。特别是，当面对复杂数学问题或精密编程难题时，LLMs的性能往往受到限制。为了应对这一挑战，研究者们提出了思维链（Chain-of-Thought, CoT）提示方法，该方法鼓励模型在生成最终答案之前，先逐步生成推理步骤。CoT提示显著增强了模型的推理能力，甚至在某些领域达到了人类专家的水平。

然而，CoT提示方法也存在明显的局限性。具体来说，它不加选择地为所有查询生成冗长的推理步骤，即使对于那些不需要复杂推理的简单查询也是如此。这种无差别的推理步骤生成导致了大量的计算开销和推理效率低下。在实际应用中，特别是对于交互式和资源敏感型应用，这种低效性尤为突出。因此，如何根据查询的复杂性自适应地决定是否调用CoT，成为了一个亟待解决的问题。

研究目的

本研究旨在提出一种新颖的框架——AdaCoT（Adaptive Chain-of-Thought），以解决上述问题。AdaCoT的目标是使大型语言模型能够自适应地决定何时调用CoT，从而在保证复杂任务高性能的同时，减少简单任务的计算开销，提高整体推理效率。具体而言，本研究希望达到以下几个目的：

提高推理效率：通过减少对简单查询的不必要推理步骤，显著降低计算开销和响应时间。
保持复杂任务性能：确保在需要复杂推理的任务上，模型仍能保持高性能。
探索自适应推理机制：通过强化学习等方法，探索一种能够根据查询复杂性自适应调整推理策略的机制。

研究方法

框架设计

AdaCoT框架的核心在于将自适应推理问题形式化为一个帕累托优化问题，旨在同时最大化响应准确性和最小化CoT的使用。具体来说，AdaCoT通过以下步骤实现自适应推理：

数据准备与监督微调（SFT）：利用一个辅助模型根据预定义的原则（如查询复杂性、预期推理深度等）为查询标注是否需要CoT。这些标注数据用于初始化模型，使其具备基本的CoT触发能力。
强化学习（RL）训练：设计一个奖励函数，该函数综合考虑响应质量和CoT使用成本。通过调整奖励函数中的惩罚系数，使用Proximal Policy Optimization（PPO）算法动态控制CoT的触发决策边界。
选择性损失掩蔽（SLM）：为了解决多阶段RL训练中可能出现的决策边界崩溃问题，AdaCoT引入了SLM技术。SLM通过在训练过程中选择性地掩蔽关键决策标记的损失贡献，保持CoT触发比率和分布的稳定性。

实验设置

为了验证AdaCoT框架的有效性，本研究进行了广泛的实验。实验设置包括：

基础模型：使用内部15B/150B参数的混合专家（MoE）模型作为基础模型。
数据集：构建了一个包含数学、推理、专业学科（如法律、医学）、对话、创意写作和常识问答等多个领域的多样化数据集。数据集分为SFT训练集和RL训练集，并分别进行了标注。
评估指标：使用15个不同的开源基准数据集评估整体性能，平均分数作为主要评估指标。此外，还构建了一个高质量的平衡测试集，用于评估CoT触发决策的准确性。
对比基线：包括始终生成CoT的全CoT SFT基线、始终不生成CoT的无CoT SFT基线，以及AdaCoT SFT模型（仅经过SFT阶段的模型）。

研究结果

帕累托前沿分析

实验结果表明，AdaCoT成功地在性能和成本之间找到了良好的平衡点。通过调整RL阶段的惩罚系数，AdaCoT RL模型（Exp1-Exp4）在保持高平均分数的同时，显著降低了CoT的触发率。具体来说，AdaCoT RL Exp2在平均分数达到62.8%的情况下，CoT触发率仅为53.3%，接近全CoT RL基线（65.0%分数，100% CoT使用）的性能，但CoT使用量减少了一半。