当前位置: 首页 > news >正文

LayerNorm vs RMSNorm 技术对比

1. 核心概念

LayerNorm (层归一化)

  • 思想:对单个样本的所有特征维度进行归一化
  • 目标:使每个样本的特征分布 μ = 0 \mu=0 μ=0 σ = 1 \sigma=1 σ=1
  • 特点:同时调整均值和方差

RMSNorm (均方根归一化)

  • 思想:基于均方根的简化归一化方法
  • 目标:仅通过缩放调整特征幅度
  • 特点:不调整均值,仅缩放方差

2. 数学表达

LayerNorm公式

μ = 1 d ∑ i = 1 d x i σ = 1 d ∑ i = 1 d ( x i − μ ) 2 x ^ i = x i − μ σ + ϵ y i = γ i x ^ i + β i \begin{aligned} \mu &= \frac{1}{d}\sum_{i=1}^d x_i \\ \sigma &= \sqrt{\frac{1}{d}\sum_{i=1}^d (x_i - \mu)^2} \\ \hat{x}_i &= \frac{x_i - \mu}{\sigma + \epsilon} \\ y_i &= \gamma_i \hat{x}_i + \beta_i \end{aligned} μσx^iyi=d1i=1dxi=d1i=1d(xiμ)2 =σ+ϵxiμ=γix^i+βi

RMSNorm公式

σ = 1 d ∑ i = 1 d x i 2 x ^ i = x i σ + ϵ y i = γ i x ^ i \begin{aligned} \sigma &= \sqrt{\frac{1}{d}\sum_{i=1}^d x_i^2} \\ \hat{x}_i &= \frac{x_i}{\sigma + \epsilon} \\ y_i &= \gamma_i \hat{x}_i \end{aligned} σx^iyi=d1i=1dxi2 =σ+ϵxi=γix^i

3. 关键差异对比

特性LayerNormRMSNorm
均值调整 ✓ \checkmark × \times ×
方差调整标准差归一化均方根归一化
计算复杂度较高较低
可学习参数 γ , β \gamma,\beta γ,β通常仅 γ \gamma γ
适用场景对分布敏感的任务高效计算场景

4. 优缺点分析

LayerNorm

  • 优点
    • 分布调整更全面
    • 适合精细控制的任务
  • 缺点
    • 计算开销较大

RMSNorm

  • 优点
    • 计算效率高(省去均值计算)
    • 适合大规模模型
  • 缺点
    • 忽略均值可能影响效果

5. 实现代码

PyTorch实现

# LayerNorm
import torch.nn as nn
layernorm = nn.LayerNorm(feature_dim)# RMSNorm
class RMSNorm(nn.Module):def __init__(self, dim):super().__init__()self.scale = nn.Parameter(torch.ones(dim))def forward(self, x):rms = x.pow(2).mean(-1, keepdim=True).sqrt() + 1e-8return x / rms * self.scale

备注

有问题随时交流~~

http://www.xdnf.cn/news/402625.html

相关文章:

  • [学习]RTKLib详解:ionex.c、options.c与preceph.c
  • 【PostgreSQL数据分析实战:从数据清洗到可视化全流程】金融风控分析案例-10.1 风险数据清洗与特征工程
  • Python语言在地球科学交叉领域中的应用——从数据可视化到常见数据分析方法的使用【实例操作】
  • Spring MVC 根据请求头 (如 Accept) 怎么返回 JSON 或 XML 数据?
  • 破解 Qt QProcess 在 Release 模式下的“卡死”之谜
  • 多模态大语言模型arxiv论文略读(七十一)
  • 基于Spring AI实现多轮对话系统架构设计
  • PHP 代理服务器:如何在 PHP 中设置代理
  • 热门CPS联盟小程序聚合平台与CPA推广系统开发搭建:助力流量变现与用户增长
  • Android Studio的jks文件
  • DDR的PCB设计(T点)
  • 力扣210(拓扑排序)
  • 1. 使用 IntelliJ IDEA 创建 React 项目:创建 React 项目界面详解;配置 Yarn 为包管理器
  • VLM-RL:用于安全自动驾驶的统一视觉语言模型和强化学习框架——论文阅读
  • vue3搭建实战项目笔记四
  • 前端面试高频50个问题,解答
  • 【2025最新】Vm虚拟机中直接使用Ubuntu 免安装过程直接使用教程与下载
  • 26 广西大学机械考研材料力学真题 材料力学考研复习笔记题库 机械考研材料力学择校推荐哪个院校?
  • MATLAB复制Excel数据到指定区域
  • lenis滑动插件的笔记
  • 【sqlmap需要掌握的参数】
  • Oracle 19c 静默安装
  • LeetCode[101]对称二叉树
  • 05_jdk8新特性
  • SpringAI框架中的RAG模块详解及应用示例
  • WebRTC:去中心化网络P2P框架解析
  • continue通过我们的开源 IDE 扩展和模型、规则、提示、文档和其他构建块中心,创建、共享和使用自定义 AI 代码助手
  • 白帽SEO与黑帽SEO差异
  • 24.(vue3.x+vite)引入组件并动态挂载(mount)
  • 蓝桥杯13届 卡牌