当前位置：首页 > backend >正文

为什么提升模型尺度可以提升模型的CoT能力

backend 2025/8/12 20:40:41

1. 思维链（CoT）能力的涌现性

核心发现：
CoT能力在模型参数量达到临界规模（约100亿参数）后才显著显现，小模型（<10B）使用CoT反而会降低性能。这与模型其他能力的线性增长规律不同，呈现典型的涌现特性。

技术解释：

量变到质变：当参数规模超过阈值后，模型突然获得：
- 多步推理的工作记忆（保持中间状态能力）
- 语义符号的精确映射（如将"翻倍"正确对应到"×2"）
对比数据：
模型规模 CoT准确率（GSM8K）标准Prompt准确率
1B 12% 15%
10B 18% 20%
100B 47% 23%
540B 56% 25%

模型规模	CoT准确率（GSM8K）	标准Prompt准确率
1B	12%	15%
10B	18%	20%
100B	47%	23%
540B	56%	25%

启示：
模型规模是CoT的必要非充分条件，需配合适当的提示工程（如Few-shot示例）。

2. 错误类型分析

研究者将PaLM-62B的错误归为三类，反映不同规模模型的能力瓶颈：
在这里插入图片描述

(1) 语义理解错误（20/45）

典型case：

问题："若A比B多3倍，B有5个，求A"  
错误CoT：A = B + 3 = 8（混淆"多3倍"与"多3个"）

规模改善机制：
大模型通过更精细的语义消歧能力（如区分"times" vs “more than”）减少此类错误。

(2) 单步缺失（18/45）

典型case：

问题："5苹果+3梨-2苹果=？"  
错误CoT：5 + 3 = 8 → 输出8（缺失"-2苹果"步骤）

规模改善机制：
大模型具有更强的程序性记忆，能完整执行多步运算。

(3) 其他错误（7/45）

包括幻觉、重复输出等，与解码策略（如beam search）相关性更高。

3. 规模扩展的收益

PaLM从62B→540B的升级带来：

语义错误下降62%（通过更好的分布式表示学习）
步骤缺失减少58%（源于更强的中间状态保持能力）
综合准确率提升3.2倍（GSM8K数据集）

深层原因假设：

符号 grounding：大模型能更好关联语言符号与数学操作
错误传播抑制：单步错误在更大模型中不易累积

4. 规模因素的复杂性

需注意的混淆变量：

训练计算量：大模型通常训练更充分
数据质量：大模型可能使用更清洗的数据
架构优化：如PaLM-540B使用了Pathways新架构

反例：
某些<10B的模型通过专项微调也能获得CoT能力（如Flan-T5），但泛化性较差。

总结图示

这项研究揭示了LLM能力增长的非线性规律，为后续模型开发提供了重要方向：

规模优先：基础模型需达百亿级参数
提示工程：Few-shot CoT是关键激活手段
专项优化：需针对语义理解/步骤完整性改进

查看全文

http://www.xdnf.cn/news/17218.html

人工智能基础知识笔记十五：文本分块（Chunk）

React+TypeScript代码注释规范指南

【JMeter】调试取样器的使用

【性能测试】-2- JMeter工具的使用

c++注意点（15）----设计模式（桥接模式与适配器模式）

深入理解VideoToolbox：iOS/macOS视频硬编解码实战指南

Java 大视界 -- 基于 Java 的大数据分布式计算在气象灾害数值模拟与预警中的应用（388）

基于Go的抗封禁爬虫引擎设计

一文可视化分析2025年6月计算机视觉顶刊IJCV前沿热点

Java 大视界 -- Java 大数据机器学习模型在金融风险传染路径模拟与防控策略制定中的应用（387）

十三、抽象队列同步器AQS

JAVA基础-I/O

el-image-viewer组件在el-table使用时层级异常问题解决

Vue3 基本语法

【Android笔记】Android 自定义 TextView 实现垂直渐变字体颜色（支持 XML 配置）

【密码学】6. 消息认证和哈希函数

latex in overleaf快速通关论文排版

vue3 el-select 加载触发

list类

设计模式中的行为模式

【Unity输入系统】自定义与双击不冲突的单击Interaction

零基础-动手学深度学习-9.3. 深度循环神经网络

深度学习（2）：自动微分

数据结构——栈、队列

STM32——STM32CubeMX