当前位置: 首页 > news >正文

Megatron系列——张量并行

本文整理自bilibili Zomi视频

1、行切分和列切分

注意:

(1)A按列切分时,X无需切分,split复制广播到A1和A2对应设备即可。最后Y1和Y2需要拼接下,即All Gather

(2)A按行切分时,X需要按列切分split,最终Y1和Y2需要做All Reduce Sum操作

(3)多次连续矩阵乘,可以把All Gather和Split省略,这个操作是不必要的。

1.1 反向传播

备注:

(1)这个视频中有人提到为什么需要对X进行求导,可以看做X为上一层或上一个模块的输出,要对上一层参数进行求导,就必须要对X求导。

(2)反向传播时,注意是两个设备上X的导数求和

行并行

2、MLP

备注:

(1)经过了两次矩阵乘,A按列切分,算出的Y1和Y2也为按列切分了,故B按行切分即可。

(2)f为copy,g为all reduce

3、Attention

备注:

(1)这里的Q,K,V是按头的个数进行列切分

http://www.xdnf.cn/news/412057.html

相关文章:

  • 我们来学mysql -- 安装8.4版本
  • 在CentOS 7上仅安装部署MySQL 8.0客户端
  • 将arduino开发的Marlin部署到stm32(3D打印机驱动)
  • 【GESP】C++三级练习 luogu-B2156 最长单词 2
  • NeurIPS 2025 截稿攻略
  • 无线传感器网络期末复习自整理资料(天大)
  • 【Game】Powerful——Hero Trial(11)
  • Windows下安装Docker Desktop到C盘以外的盘
  • 透视相机:创意摄影新体验,解锁照片无限可能
  • 计网第四次作业
  • MyBatis 一对多关联映射在Spring Boot中的XML配置
  • 北京市通州区经信局对新增通过国家级生成式人工智能及深度合成算法备案企业给予100w、20w一次性补贴
  • 【软考-软件设计师学习总结】- 计算机网络概述
  • MINIX 1.0 文件系统的实现(C/C++实现)
  • Lynx-字节跳动跨平台框架多端兼容Android, iOS, Web 原生渲染
  • Vue学习百日计划-Deepseek版
  • 残差网络(ResNet)
  • c/c++爬虫总结
  • docker使用过程中遇到概念问题
  • 线程的让位(Yield)
  • 修改linux同步时间
  • 潘大水库介绍
  • object的常用方法
  • MAC-OS X 命令行设置IP、掩码、网关、DNS服务器地址
  • 5月12日信息差
  • 为什么 cout<<“中文你好“ 能正常输出中文
  • Django 项目的 models 目录中,__init__.py 文件的作用
  • [ linux-系统 ] 自动化构建工具makefile
  • Python实例题:pygame开发打飞机游戏
  • 防爆手机与普通手机有什么区别