当前位置: 首页 > ds >正文

layer norm和 rms norm 对比

Layer norm

# Layer Norm 公式
mean = x.mean(dim=-1, keepdim=True)
var = x.var(dim=-1, keepdim=True)
output = (x - mean) / sqrt(var + eps) * gamma + beta

特点:

  • 减去均值(去中心化)
  • 除以标准差(标准化)
  • 包含可学习参数 gamma 和 beta
  • 计算复杂度相对较高

RMS Norm(Root Mean Square归一化):

# RMS Norm 公式
rms = sqrt(mean())
output = x / rms * gamma

特点:

  • 不减去均值(保持中心)
  • 只除以RMS值
  • 只有一个可学习参数 gamma
  • 计算更简单高效

对比

在这里插入图片描述
在这里插入图片描述

代码对比

import torch
import torch.nn as nnclass LayerNorm(nn.Module):def __init__(self, dim, eps=1e-6):super().__init__()self.gamma = nn.Parameter(torch.ones(dim))self.beta = nn.Parameter(torch.zeros(dim))self.eps = epsdef forward(self, x):mean = x.mean(-1, keepdim=True)var = x.var(-1, keepdim=True, unbiased=False)return (x - mean) / torch.sqrt(var + self.eps) * self.gamma + self.betaclass RMSNorm(nn.Module):def __init__(self, dim, eps=1e-6):super().__init__()self.gamma = nn.Parameter(torch.ones(dim))self.eps = epsdef forward(self, x):rms = torch.sqrt(torch.mean(x**2, dim=-1, keepdim=True) + self.eps)return x / rms * self.gamma
http://www.xdnf.cn/news/12013.html

相关文章:

  • es地理信息索引的类型以及geo_point‌和geo_hash的关系
  • PyTorch——损失函数与反向传播(8)
  • QT链接其他项目的C++文件报链接错误
  • n8n:解锁自动化工作流的无限可能
  • vue3从入门到精通(基础+进阶+案例)
  • RK3568平台 USB框架与USB识别流程_rk3568 usb otg
  • 服务器上reportqueue文件夹,删除reportqueue文件夹的操作方法-电脑自学网
  • 【Cisco Packet Tracer| 一.交换机配置模式与基本参数配置】
  • 文件怎么加密?推荐五款文件加密软件,第一款太香!
  • C语言之编程基础
  • linux系统下安装flash插件
  • 图片网站源码_Python爬虫入门,煎蛋网XXOO图片抓取!
  • 【Netlink】学习笔记与实践
  • 怎么领取腾讯云优惠券和怎么使用腾讯云优惠券购买产品?
  • PyQt5高级界面控件之QWebEngineView(十三)
  • 疑似流氓软件? 价值4000万的过滤软件绿坝分析报告
  • android开发之双击退出程序
  • 百度seo排名点击器app_百度SEO优化和百度竞价优缺点 - 百度整站排名
  • 二分查找法———(c语言)
  • 火车头采集鹿图社整站采集规则-采集文章图片网盘地址!
  • 使用chkrootkit对系统进行rootkit扫描
  • H.264编码格式和视频编码的一些基本概念
  • 电脑报合订本_1998年电脑报合订本截图回忆二
  • Java_画图软件
  • 《2020年AI、CV、NLP顶会最全时间表!》
  • HTML5锚点教程
  • 友情链接常用代码
  • 最短路径课程设计(安阳旅游导航系统)C语言完整代码
  • 黑客网站大全!都在这了!速看删了真的就没了
  • 青龙面板-快手极速版(每天3块脚本)(废-已不能使用)