当前位置: 首页 > ops >正文

思维链提示:激发大语言模型推理能力的突破性方法

论文出处: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
机构: Google Research, Brain Team
发表: 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
arXiv: 2201.11903v6 [cs.CL]

研究背景

大语言模型虽然在许多任务上表现出色,但在需要复杂推理的任务上仍然存在困难,特别是算术、常识和符号推理。传统的提示方法往往只是简单的输入-输出对,无法有效激发模型的推理能力。

核心创新:思维链提示

什么是思维链提示?

思维链提示(Chain-of-Thought Prompting)是一种新的提示方法,通过在少样本示例中提供一系列中间推理步骤,教会大语言模型进行逐步推理。

传统提示 vs 思维链提示对比:

方法类型输入格式输出格式示例
传统提示问题 → 答案直接答案Q: Roger有5个网球,买了2罐,每罐3个,现在有多少?
A: 答案是11
思维链提示问题 → 推理过程 → 答案逐步推理 + 答案Q: Roger有5个网球,买了2罐,每罐3个,现在有多少?
A: Roger开始有5个球。2罐网球每罐3个就是6个球。5+6=11。答案是11

思维链提示的四大优势

  1. 分解复杂问题:将多步问题拆解为中间步骤,为复杂推理分配更多计算资源
  2. 提供可解释性:展示模型推理过程,便于调试和理解
  3. 广泛适用性:适用于任何人类可以通过语言解决的推理任务
  4. 零额外训练:仅需要在提示中提供示例,无需模型微调

实验验证

算术推理实验

研究团队在五个数学应用题数据集上进行了测试,包括GSM8K、SVAMP、ASDiv、AQuA和MAWPS。

主要发现:

  • 规模涌现性:思维链提示只在约100B参数以上的模型中显现效果
  • 复杂问题效果更佳:越复杂的问题,性能提升越显著
  • 超越微调模型:在某些任务上甚至超过了专门微调的模型

GSM8K数学应用题性能对比:

模型标准提示思维链提示性能提升
GPT-3 175B15.6%46.9%+31.3%
PaLM 540B17.9%56.9%+39.0%
Codex19.7%63.1%+43.4%

不同模型规模的表现(GSM8K):

模型系列参数量标准提示思维链提示提升幅度
GPT-3350M2.2%0.5%-1.7%
GPT-31.3B2.4%0.5%-1.9%
GPT-36.7B4.0%2.4%-1.6%
GPT-3175B15.6%46.9%+31.3%
PaLM8B4.9%4.1%-0.8%
PaLM62B9.6%29.9%+20.3%
PaLM540B17.9%56.9%+39.0%

常识推理实验

在五个常识推理数据集上的测试显示,思维链提示同样有效。

常识推理任务性能(PaLM 540B):

任务标准提示思维链提示性能提升
CSQA78.1%79.9%+1.8%
StrategyQA68.6%77.8%+9.2%
Date Understanding49.0%65.3%+16.3%
Sports Understanding80.5%95.4%+14.9%
SayCan80.8%91.7%+10.9%

符号推理实验

通过设计的两个符号推理任务验证了思维链提示的泛化能力。

符号推理任务结果(PaLM 540B):

任务测试类型标准提示思维链提示性能提升
末字母连接域内(2词)7.6%99.4%+91.8%
末字母连接域外(3词)0.2%94.8%+94.6%
末字母连接域外(4词)0.0%63.0%+63.0%
硬币翻转域内(2次)98.1%100.0%+1.9%
硬币翻转域外(3次)49.3%98.6%+49.3%
硬币翻转域外(4次)54.8%90.2%+35.4%

消融实验分析

为了验证思维链的有效性,研究团队进行了三组对照实验:

消融实验结果(LaMDA 137B在GSM8K上):

提示方法性能说明
标准提示6.5%基线
仅方程式5.4%只输出数学方程式
仅可变计算6.4%只输出等长度的点序列
答案后推理6.1%推理过程放在答案后
思维链提示14.3%完整的逐步推理

结果表明,思维链的成功不仅仅因为增加了计算量或方程式,而是因为逐步的自然语言推理过程。

稳健性验证

不同标注者的稳健性

研究团队让三个不同的标注者编写思维链提示,验证方法的稳健性。

不同标注者结果(LaMDA 137B):

数据集标注者A标注者B标注者C标准提示基线
GSM8K14.3%15.5%17.6%6.5%
SVAMP36.7%35.2%37.5%29.5%
ASDiv46.6%46.5%48.7%40.1%
MAWPS57.9%58.2%60.1%43.2%

不同示例数量的影响

示例数量对性能的影响(LaMDA 137B, GSM8K):

示例数量标准提示思维链提示性能差距
1个4.2%8.9%+4.7%
2个5.1%11.2%+6.1%
4个5.8%12.8%+7.0%
6个6.2%13.5%+7.3%
8个6.5%14.3%+7.8%

错误分析

研究团队对LaMDA 137B在GSM8K上的错误进行了详细分析:

正确答案的推理质量(50个样本):

  • 完全正确:48个(96%)
  • 巧合正确:1个(2%)
  • 轻微瑕疵但逻辑正确:1个(2%)

错误答案的错误类型(50个样本):

错误类型占比说明
计算错误8%逻辑正确但计算出错
符号映射错误16%数字符号使用错误
缺少一步22%推理链缺少关键步骤
语义理解错误54%对问题理解有误

应用场景与限制

最佳应用场景

思维链提示在以下三个条件同时满足时效果最佳:

  1. 任务具有挑战性且需要多步推理
  2. 使用大规模语言模型(100B+参数)
  3. 标准提示的性能曲线相对平坦

方法限制

  1. 模型规模依赖:只在大模型中有效,服务成本高
  2. 推理正确性无保证:可能产生看似合理但错误的推理链
  3. 标注成本:大规模应用需要大量高质量示例
  4. "真实推理"存疑:模型是否真正在推理仍是开放问题

技术影响与未来展望

对AI领域的影响

思维链提示的成功表明:

  • 标准提示只是下界:大语言模型的能力被严重低估
  • 涌现能力的重要性:某些能力只在特定规模下才显现
  • 推理能力可激发:不需要专门训练就能获得推理能力

未来研究方向

  1. 自动化思维链生成:减少人工标注成本
  2. 小模型推理能力:在更小模型中实现类似效果
  3. 推理正确性保证:提高推理链的准确性和可靠性
  4. 多模态推理:扩展到图像、视频等其他模态

结论

思维链提示是大语言模型推理能力的一个重要突破。通过简单的提示工程,就能显著提升模型在复杂推理任务上的表现,这为AI系统的实际应用开辟了新的可能性。随着模型规模的继续增长和方法的不断改进,我们有理由期待更强大、更可靠的AI推理系统。

这项研究不仅在技术上具有重要意义,更在于它揭示了大语言模型潜在能力的冰山一角,为未来的AI研究指明了新的方向。

http://www.xdnf.cn/news/10593.html

相关文章:

  • 论文略读:Auto-Regressive Moving Diffusion Models for Time Series Forecasting
  • 资源预加载+懒加载组合拳:从I/O拖慢到首帧渲染的全面优化方案
  • IPtables部署和使用
  • SCAU8640--希尔排序
  • 产品设计法则:用「人性引擎」驱动7层产品进化
  • OVD开放词汇检测中COCO数据集的属性
  • 数论——约数和倍数
  • 平滑技术(数据处理,持续更新...)
  • 提升嵌入式软件调试效率的核心方
  • 什么是煤矿智能掘进
  • 第七章.正则表达式
  • 【03】完整开发腾讯云播放器SDK的UniApp官方UTS插件——优雅草上架插件市场-卓伊凡
  • 腾讯位置商业授权沿途搜索服务开发指南
  • c++ delete实现动作
  • Netty学习example示例
  • RAG的ETL Pipeline源码解读
  • 科技类专著写作与出版过程
  • 【java面试】MySQL篇
  • Python Day40 学习(复习学习日志Day5-7)
  • make_unique
  • 基于LangChain的AI助手开发:从零到上线
  • 案例:TASK OA
  • Pycharm的终端无法使用Anaconda命令行问题详细解决教程
  • 兰亭妙微十六年高水准交互设计公司
  • php 各版本下载
  • 探索大语言模型(LLM):RSE流程详解——从文档中精准识别高相关片段
  • 50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | Form Wave(表单label波动效果)
  • 力扣刷题(第四十五天)
  • navicate菜单栏不见了怎么办
  • cursor如何开启自动运行模式