当前位置: 首页 > ai >正文

llama-factory微调报错:

报错信息

[INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory: used =
81.51 GB, percent = 64.9%
W0419 10:14:27.573000 108354 site-packages/torch/distributed/elastic/multiprocessing/api.py:897] Sending process 108373 closing signal SIGTERM
W0419 10:14:27.594000 108354 site-packages/torch/distributed/elastic/multiprocessing/api.py:897] Sending process 108375 closing signal SIGTERM
W0419 10:14:27.594000 108354 site-packages/torch/distributed/elastic/multiprocessing/api.py:897] Sending process 108376 closing signal SIGTERM
E0419 10:14:33.446000 108354 site-packages/torch/distributed/elastic/multiprocessing/api.py:869] failed (exitcode: -9) local_rank: 1 (pid: 108374) of binary: /opt/conda/envs/llamaf/bin/python

Traceback (most recent call last):
File “/opt/conda/envs/llamaf/bin/torchrun”, line 33, in
sys.exit(load_entry_point(‘torch==2.5.1’, ‘console_scripts’, ‘torchrun’)())
xxx
xxx
xxx
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
/home/LLaMA-Factory/src/llamafactory/launcher.py FAILED

由于看到CPU Virtual Memory 只加载到了64.9%,发现是内存不足。

解决方法:

# 创建分区路径
sudo mkdir -p /data/swap/
# 设置分区的大小
# bs=128M是块大小,count=64是块数量,
# 所以swap空间大小是bs*count=96GB
sudo dd if=/dev/zero of=/data/swap/swap0 bs=512M count=192
# 设置该目录权限
sudo chmod 0600 /data/swap/swap0
# 创建SWAP文件
sudo mkswap /data/swap/swap0
# 激活SWAP文件
sudo swapon /data/swap/swap0
# 查看SWAP信息是否正确
sudo swapon -s
http://www.xdnf.cn/news/381.html

相关文章:

  • MySQL——触发器
  • 使用C语言的cJSON中给JSON字符串添加转义
  • 7.vtk坐标系
  • 爬取B站视频弹幕的简易教程(下)
  • c++_csp-j算法 (1)
  • Win 11 重装 Ubuntu 双系统方法
  • [Java微服务组件]注册中心P3-Nacos中的设计模式1-观察者模式
  • 机械设计【】一些常用的技术要求
  • 使用 TensorFlow 和 Keras 构建 U-Net
  • STC32G12K128单片机GPIO模式SPI操作NorFlash并实现FatFS文件系统
  • Linux编译艺术:源码编译安装指南
  • SICAR 标准 安全门锁操作箱 按钮和指示灯说明
  • Linux线程——锁
  • 四级英语题型分析
  • 全链路灰度实现
  • 从FPGA实现角度介绍DP_Main_link主通道原理
  • 递归下降 ll(1) 型文法 识别二元组文法分析
  • libevent的bufferevent测试用例和使用方法(附带源码)
  • 筛选法(埃氏筛法)C++
  • 聊聊Doris的数据模型,如何用结构化设计解决实时分析难题
  • 【Linux我做主】make和makefile自动化构建
  • Python语法系列博客 · 第3期 数据结构入门(列表、元组、字典、集合)
  • LeetCode 239 滑动窗口最大值
  • 【深度学习—李宏毅教程笔记】Transformer
  • 探索 .bat 文件:自动化任务的利器
  • 关于数字信号与图像处理——基于Matlab的图像增强技术
  • 将软件架构风格定义为数据流风格,调用返回风格,独立构件风格,虚拟机风格和以数据为为中心这五种风格的依据是什么?请介绍这五种风格
  • 区块链木材业务服务平台:商贸物流新变革
  • 模态双侠闯江湖:SimTier 分层破局,MAKE 智炼新知
  • 不确定与非单调推理的可信度方法