当前位置: 首页 > ops >正文

如何避免和恢复因终端关闭导致的 LoRA 微调中断

环境:

Ubuntu20.04

Llama factory

Qwen2.5-7B-Instruct

llama.cpp

H20 95G

问题描述:

使用命令 CUDA_VISIBLE_DEVICES=1 FORCE_TORCHRUN=1 llamafactory-cli train examples/train_lora/qwen2_5-7b_lora_sft.yaml 进行 LoRA 微调时,如果突然关闭终端窗口,微调进程会被中断。

在这里插入图片描述

解决方案:

  1. 中断原因

    • 终端关闭会发送 SIGHUP 信号,终止所有关联进程。
    • 未使用后台运行或会话管理工具(如 nohuptmux 等)。
  2. 如何确认中断

    • 检查训练日志,查看是否有异常终止记录。
    • 使用 nvidia-smi 检查 GPU 是否仍在运行训练任务。
    • 检查训练输出文件(如检查点)是否完整。
  3. 避免中断的方法

    • 使用 nohup
      nohup CUDA_VISIBLE_DEVICES=1 FORCE_TORCHRUN=1 llamafactory-cli train examples/train_lora/qwen2_5-14b_lora_sft.yaml > train.log 2>&1 &
      

使用 sh -c 来包裹整个命令

这种方法可以确保环境变量被正确设置并应用于紧跟其后的命令:

nohup sh -c 'CUDA_VISIBLE_DEVICES=1 FORCE_TORCHRUN=1 python -m llamafactory.cli train examples/train_lora/qwen2_5-7b_lora_sft.yaml' > train.log 2>&1 &

实时日志查看:

tail -f train.log

在这里插入图片描述

  1. 中断后的恢复方法

    • 从检查点恢复
      CUDA_VISIBLE_DEVICES=1 FORCE_TORCHRUN=1 llamafactory-cli train examples/train_lora/qwen2_5-14b_lora_sft.yaml --resume_from_checkpoint path_to_checkpoint
      
    • 重新开始训练:如果没有保存检查点,只能重新开始。
    • 检查日志和 GPU 状态:确认中断原因并解决问题。
  2. 总结

    • 使用后台运行或会话管理工具(如 `nohup``)避免中断。
    • 启用检查点保存功能,以便中断后可以恢复训练。
    • 定期检查训练日志和 GPU 状态,确保训练顺利进行。
http://www.xdnf.cn/news/5785.html

相关文章:

  • 用 VS Code / PyCharm 编写你的第一个 Python 程序
  • Java鼠标事件监听器MouseListener、MouseMotionListener和MouseWheelListener
  • Redis——线程模型·
  • Ubuntu 18.04.6下OpenSSL与OpenSSH版本升级
  • OptiStruct的转子临界转速分析
  • 解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- GPT源代码解析
  • [Java实战]Spring Boot 3 整合 Apache Shiro(二十一)
  • ubuntu----100,常用命令2
  • Python 字典键 “三变一” 之谜
  • 理解 C# 中的各类指针
  • OCR:开启财务数字化变革的魔法钥匙
  • Leetcode 3547. Maximum Sum of Edge Values in a Graph
  • swift flask python ipad当电脑键盘 实现osu x键和z键 长按逻辑有问题 quart 11毫秒
  • Spark 缓存(Caching)
  • 2025年PMP 学习十一 第8章 项目质量管理(8.3)
  • 运行Spark程序-在Idea中
  • 基于智能家居项目 实现DHT11驱动源代码
  • Linux目录和文件
  • idea Maven 打包SpringBoot可执行的jar包
  • C语言 ——— 函数栈帧的创建和销毁
  • Qt6.5.3 windows下安装教程
  • c++STL-list的使用和迭代器
  • 【AIGC 温柔档案】:镂空蕾丝与柔和线条的唯美算法融合
  • PostgreSQL 配置设置函数
  • MySQL 8.0 OCP 英文题库解析(四)
  • STM32 修炼手册
  • PostgreSQL 服务器信号函数
  • 设计模式深度解析:AI大模型下的策略模式与模板方法模式对比解析
  • 力扣HOT100之二叉树:543. 二叉树的直径
  • web 自动化之 KDT 关键字驱动详解