当前位置: 首页 > ds >正文

模型学习系列之参数

背景

“GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。”

定义与关系

  • 总参数量:模型中所有可训练参数的总和(包括嵌入层、注意力层、前馈网络等),反映模型的理论容量
  • 活跃参数:在单次前向传播中实际参与计算的参数子集。例如:
    • 稀疏激活模型(如MoE):每次只激活部分专家网络(如Switch Transformer每次激活1/8的专家)。
    • 动态参数共享(如LoRA、AdaLoRA):通过低秩分解或掩码动态选择参数。
    • 条件计算(如专家选择、路由机制):根据输入动态决定激活哪些路径。

关系
活跃参数 ≤ 总参数量(通常远小于)。例如,Switch Transformer总参数量1.6T,但单次计算仅激活约50B参数(活跃参数占比~3%)。

作用与意义

(1)效率提升
  • 计算成本:活跃参数直接决定FLOPs和内存占用。稀疏激活(如MoE)允许在总参数量极大时,仍保持低计算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
  • 存储优化:通过参数共享(如LoRA)或量化,减少实际存储需求(例如Meta的LLaMA-65B通过4-bit量化压缩至33GB)。
(2)性能与容量的权衡
  • 总参数量:提供潜在容量(如知识存储),但需通过稀疏激活或动态路由有效利用。例如:
    • MoE模型:总参数量大(如GLaM 1.2T),但活跃参数少(96B),在多项任务上超越GPT-3(175B全激活)。
    • 过拟合风险:总参数量过大但活跃参数不足时,可能因参数利用率低导致欠拟合。
(3)训练与推理的差异化设计
  • 训练阶段:总参数量影响梯度更新范围,但可通过梯度稀疏化(如ZeRO-3、DeepSpeed)减少实际通信量。
  • 推理阶段:通过动态剪枝(如Block-Sparse Attention)或专家卸载(如MoE的路由缓存),进一步降低活跃参数。

总参数量是模型的“潜在智慧”,而活跃参数是其“实际执行力”。二者的分离设计(如稀疏化、动态路由)是大模型突破规模限制的核心技术,使得“用更少的计算,实现更强的性能”成为可能。

http://www.xdnf.cn/news/17130.html

相关文章:

  • C# LINQ(LINQ to XML)
  • OpenWrt | 如何在 ucode 脚本中打印日志
  • 基于BiLSTM+CRF实现NER
  • Remix框架:高性能React全栈开发实战
  • 如何查看SoC线程的栈起始地址及大小
  • 【Bluedroid】btif_av_handle_event 流程源码解析
  • 数据结构(概念及链表)
  • NumPy库学习(三):numpy在人工智能数据处理的具体应用及方法
  • 安卓加固脱壳
  • io_getevents系统调用及示例
  • [Oracle] DUAL数据表
  • 性能测试工具ApacheBench、Jmeter
  • Linux Deepin深度操作系统应用商店加载失败,安装星火应用商店
  • Ubuntu系统VScode实现opencv(c++)视频的处理与保存
  • 基于单片机火灾报警系统/防火防盗系统设计
  • linux下jvm之jstack的使用
  • 应急响应整理
  • 百度网盘SVIP下载速度异常
  • 浅谈Python中的os.environ:环境变量交互机制
  • 基于Springboot+UniApp+Ai实现模拟面试小工具八:管理端基础功能实现
  • mybatis-plus从入门到入土(四):持久层接口之BaseMapper和选装件
  • OSPF HCIP
  • CICD--自动化部署--jinkins
  • 微服务的使用
  • SpringAI无人机智能灌溉、本地化AI推理、分析气象站、分析球场草皮系统实践
  • 【openlayers框架学习】十一:openlayers实战功能介绍与前端设计
  • 图像张量中的通道维度
  • 计算机网络:如何在实际网络中进行子网划分
  • 机器翻译入门:定义、发展简史与核心价值
  • Day23--回溯--39. 组合总和,40. 组合总和 II,131. 分割回文串