当前位置：首页 > ds >正文

模型学习系列之参数

ds 2025/8/4 16:53:36

背景

“GLM-4.5拥有 3550 亿总参数量，其中 320 亿活跃参数；GLM-4.5-Air 采用更紧凑的设计，拥有 1060 亿总参数量，其中 120 亿活跃参数。”

定义与关系

总参数量：模型中所有可训练参数的总和（包括嵌入层、注意力层、前馈网络等），反映模型的理论容量。
活跃参数：在单次前向传播中实际参与计算的参数子集。例如：
- 稀疏激活模型（如MoE）：每次只激活部分专家网络（如Switch Transformer每次激活1/8的专家）。
- 动态参数共享（如LoRA、AdaLoRA）：通过低秩分解或掩码动态选择参数。
- 条件计算（如专家选择、路由机制）：根据输入动态决定激活哪些路径。

关系：
活跃参数 ≤ 总参数量（通常远小于）。例如，Switch Transformer总参数量1.6T，但单次计算仅激活约50B参数（活跃参数占比~3%）。

作用与意义

（1）效率提升

计算成本：活跃参数直接决定FLOPs和内存占用。稀疏激活（如MoE）允许在总参数量极大时，仍保持低计算量（如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近）。
存储优化：通过参数共享（如LoRA）或量化，减少实际存储需求（例如Meta的LLaMA-65B通过4-bit量化压缩至33GB）。

（2）性能与容量的权衡

总参数量：提供潜在容量（如知识存储），但需通过稀疏激活或动态路由有效利用。例如：
- MoE模型：总参数量大（如GLaM 1.2T），但活跃参数少（96B），在多项任务上超越GPT-3（175B全激活）。
- 过拟合风险：总参数量过大但活跃参数不足时，可能因参数利用率低导致欠拟合。

（3）训练与推理的差异化设计

训练阶段：总参数量影响梯度更新范围，但可通过梯度稀疏化（如ZeRO-3、DeepSpeed）减少实际通信量。
推理阶段：通过动态剪枝（如Block-Sparse Attention）或专家卸载（如MoE的路由缓存），进一步降低活跃参数。

总参数量是模型的“潜在智慧”，而活跃参数是其“实际执行力”。二者的分离设计（如稀疏化、动态路由）是大模型突破规模限制的核心技术，使得“用更少的计算，实现更强的性能”成为可能。

http://www.xdnf.cn/news/17130.html

相关文章：

C# LINQ(LINQ to XML)

OpenWrt | 如何在 ucode 脚本中打印日志

基于BiLSTM+CRF实现NER

Remix框架：高性能React全栈开发实战

如何查看SoC线程的栈起始地址及大小

【Bluedroid】btif_av_handle_event 流程源码解析

数据结构（概念及链表）

NumPy库学习（三）：numpy在人工智能数据处理的具体应用及方法

安卓加固脱壳

io_getevents系统调用及示例

[Oracle] DUAL数据表

性能测试工具ApacheBench、Jmeter

Linux Deepin深度操作系统应用商店加载失败，安装星火应用商店

Ubuntu系统VScode实现opencv（c++）视频的处理与保存

基于单片机火灾报警系统/防火防盗系统设计

linux下jvm之jstack的使用

应急响应整理

百度网盘SVIP下载速度异常

浅谈Python中的os.environ：环境变量交互机制

基于Springboot+UniApp+Ai实现模拟面试小工具八：管理端基础功能实现

mybatis-plus从入门到入土(四):持久层接口之BaseMapper和选装件

CICD--自动化部署--jinkins

微服务的使用

SpringAI无人机智能灌溉、本地化AI推理、分析气象站、分析球场草皮系统实践

【openlayers框架学习】十一：openlayers实战功能介绍与前端设计

图像张量中的通道维度

计算机网络：如何在实际网络中进行子网划分

机器翻译入门：定义、发展简史与核心价值

Day23--回溯--39. 组合总和，40. 组合总和 II，131. 分割回文串