当前位置: 首页 > news >正文

batch normalization和layer normalization区别

Normalization无非就是这样一个操作:
在这里插入图片描述
其中x是输入数据,维度为(B,T,C),其中B是batchsize,T是序列长度,C是embedding维度;括号内是标准化操作,γ和β是仿射变换参数。

BN和LN的不同,仅仅在于均值和方差的计算方式而已,下面给出计算公式:

1.Batch Normalization

在这里插入图片描述

2.Layer Normalization

在这里插入图片描述
在这里插入图片描述

可以发现,BN是对前2个维度进行统计计算,LN是对最后一个维度进行统计计算。公式很简单,怎么理解呢?

先看LN。可以理解为:对于每个样本(batch)中的每个token,都分别统计其自身所包含的所有特征维度,作为归一化的依据。在大语言模型中,输入序列的长度通常是不固定的,因此对每个 token 单独进行归一化,是一种更合理、灵活的方式。

再来看 BN,它更常用于固定长度的序列或图像任务中。以等长序列为例,BN 的归一化是对所有 batch 中相同位置(如第一个 token、第二个 token 等)上的特征维度进行统计。因此,它统计的是同一维度在不同样本、不同 token 上的分布。由于序列长度一致,数据结构规整,就不需要像 LN 那样对每个 token 单独归一化。

参考链接

https://arxiv.org/abs/2503.10622

http://www.xdnf.cn/news/264475.html

相关文章:

  • 循环缓冲区
  • QNAP Duplicati 备份 123云盘
  • Java接口全面教程:从入门到精通
  • ai之paddleOCR 识别PDF python312和paddle版本冲突 GLIBCXX_3.4.30
  • C与指针4——指针
  • 每天一道面试题@第五天
  • 第九课认识倍数
  • 【C++】模板进阶
  • C++/SDL 进阶游戏开发 —— 双人塔防(代号:村庄保卫战 20)
  • 多协议 Tracker 系统架构与传感融合实战 第四章 IMU 与 UWB 传感融合框架
  • 基于Springboot旅游网站系统【附源码】
  • 步进电机中断函数解释
  • rhce第二次作业
  • 工作记录 2015-06-01
  • fastapi+vue中的用户权限管理设计
  • Seata RM的事务提交与回滚源码解析
  • 六大机器学习算法全解析:企业级开发实战与深度理解
  • AWS云服务深度技术解析:架构设计与最佳实践
  • Android Compose 物联网(IoT)UI 组件库封装指南
  • Dev-C++下载安装使用教程
  • 单细胞测序数据分析流程的最佳实践
  • Java学习手册:关系型数据库基础
  • 爬虫准备前工作
  • 【AI面试准备】NLP解析API文档生成测试脚本
  • 二叉树 - JS - 2
  • 49-dify案例分享-私有化 MCP 广场搭建与网页小游戏智能体工作流实战
  • 学习Cesium自定义材质
  • 硬件工程师面试常见问题(12)
  • 【LeetCode Hot100】贪心篇
  • 在pycharm profession 2020.3将.py程序使用pyinstaller打包成exe