当前位置: 首页 > backend >正文

Pytorch FSDP权重分片保存与合并

注:本文章方法只适用Pytorch FSDP1的模型,且切分策略为SHARDED_STATE_DICT场景。

在使用FSDP训练模型时,为了节省显存通常会把模型权重也进行切分,在保存权重时为了加速保存通常每个进程各自保存自己持有的部分权重,避免先汇聚到主进程再保存浪费大量时间的问题。保存成分片权重后,如果需要推理则还需要将分片权重进行合并。下面提供了保存分片权重以及将分片权重合并的代码示例,代码主要参考accelerate官方源码。

import osimport torch
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP, StateDictType
import torch.distributed.checkpoint as dist_cp
from torch.distributed.checkpoint.default_planner import DefaultSavePlanner
import torch.distributed.checkpoint.format_utils as dist_cp_format_utilsdef save_fsdp_model(model: FSDP, fsdp_ckpt_path: str):# refer accelerate/utils/fsdp_utils.py:save_fsdp_modelwith FSDP.state_dict_type(model, StateDictType.SHARDED_STATE_DICT):os.makedirs(fsdp_ckpt_path, exist_ok=True)state_dict = {"model": model.state_dict()}dist_cp.save(state_dict=state_dict,storage_writer=dist_cp.FileSystemWriter(fsdp_ckpt_path),planner=DefaultSavePlanner(),)def merge_fsdp_weights(fsdp_ckpt_path: str, save_path: str):# refer accelerate/utils/fsdp_utils.py:merge_fsdp_weightsstate_dict = {}dist_cp_format_utils._load_state_dict(state_dict,storage_reader=dist_cp.FileSystemReader(fsdp_ckpt_path),planner=dist_cp_format_utils._EmptyStateDictLoadPlanner(),no_dist=True,)# To handle if state is a dict like {model: {...}}if len(state_dict.keys()) == 1:state_dict = state_dict[list(state_dict)[0]]torch.save(state_dict, save_path)
http://www.xdnf.cn/news/17701.html

相关文章:

  • CW32L011电机开发板控制教程
  • MVCC底层实现原理
  • Java Web开发:Session与Cookie详细入门指南
  • 深入理解 C++ 中的虚函数:原理、特点与使用场景
  • mac下载maven并配置,以及idea配置
  • 智慧城市数字孪生:城市管理的“平行宇宙”
  • nginx匹配规则
  • 计算机网络体系结构
  • framebuffer
  • 当GitHub宕机时,我们如何保持高效协作?分布式策略与应急方案详解
  • 建设有人文温度的智能社会:规划与实施路径
  • 2小时构建生产级AI项目:基于ViT的图像分类流水线(含数据清洗→模型解释→云API)(第十七章)
  • BGP综合实验_Te. BGP笔记
  • 德文识别技术:为德语用户创造更智能、更便捷的信息处理体验
  • wps--设置
  • Android 终端接入 GB28181 国标视频平台的完整解决方案解析
  • HarmonyOS 开发实战:搞定应用名字与图标更换,全流程可运行示例
  • 玩转Docker | 使用Docker部署WordPress网站服务
  • 深度学习与遥感入门(七)|CNN vs CNN+形态学属性(MP):特征工程到底值不值?
  • 基于R语言的现代贝叶斯统计学方法(贝叶斯参数估计、贝叶斯回归、贝叶斯计算)实践
  • MySQL数据库知识体系总结 20250813
  • 疏老师-python训练营-Day44预训练模型
  • Pytest项目_day15(yaml)
  • 玩转Docker | 使用Docker部署MediaWiki文档管理平台
  • 日志数据链路的 “搬运工”:Flume 分布式采集的组件分工与原理
  • ip -details link show can0 输出项解释
  • 光伏板横铺VS竖铺,布局决定发电量!
  • Android Framework定制长按电源键关机的窗口
  • 数据库基础—SQL语句总结及在开发时
  • 第六章 二次型