当前位置: 首页 > news >正文

Lora 微调自定义device_map

Lora 微调自定义device_map

首先查看模型权重参数配置model.safetensors.index.json
在这里插入图片描述

查看多少解码器

这里的layer可以理解为解码器层,后面有qkv,bais,layernomal等
在这里插入图片描述

# 显卡数量
num_gpus = 5
# 总层数
num_layers = 28layers_per_gpu = num_layers // num
http://www.xdnf.cn/news/46171.html

相关文章:

  • 【Linux】Rhcsa复习5
  • 阿里云 dataworks maxcompute创建python脚本实现列转行 脚本demo示例。
  • 06 GE Modifier
  • AUTOSAR图解==>AUTOSAR_RS_BSWModuleDescriptionTemplate
  • 19. git reflog
  • 力扣每日打卡16 781. 森林中的兔子(中等)
  • C++项目 —— 基于多设计模式下的同步异步日志系统(4)(双缓冲区异步任务处理器(AsyncLooper)设计)
  • 家庭电脑隐身后台自动截屏软件,可远程查看
  • Spring Data MongoDB 精华:给新手的核心注解指南
  • 从内核到用户态:Linux信号内核结构、保存与处理全链路剖析
  • 图论基础:图存+记忆化搜索
  • 基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(三)
  • 嵌入式---零点漂移(Zero Drift)
  • go+mysql+cocos实现游戏搭建
  • jetpack之LiveData的原理解析
  • 【25软考网工】第二章(8)差错控制、奇偶校验、CRC、海明码
  • Doris + Iceberg 构建冷热分层数据湖架构:架构设计与实战指南
  • Linux驱动开发--异步通知与异步I/O
  • 深度学习方向急出成果,是先广泛调研还是边做实验边优化?
  • ES6 第一讲 变量定义 堆与栈 字符串的扩展和数值型的扩展
  • c++STL——list的使用和模拟实现
  • 【题解-Acwing】790. 数的三次方根
  • 传导发射测试(CE)和传导骚扰抗扰度测试(CS)
  • 【概率论,算法】排列的峰值期望
  • seata db模式,nacos注册中心,spring boot ,spring cloud ,jdk1.8 完成的配置步骤
  • 【上位机——MFC】MFC入门
  • 状态管理最佳实践:Bloc架构实践
  • Android Jetpack Compose 状态管理解析:remember vs mutableStateOf,有啥不一样?为啥要一起用?
  • 【深度学习—李宏毅教程笔记】各式各样的 Attention
  • [原创](现代C++ Builder 12指南): [4]如何使用VCL的TStringBuilder?