当前位置: 首页 > news >正文

首次中医知识问答模型微调

1.微调目标模型

DeepSeek-R1-Distill-7B

2.数据准备

数据集SylvanL/Traditional-Chinese-Medicine-Dataset-SFT中的部分数据,微调时总计使用150000

3.训练平台及参数变化观察平台

LLaMA-Factory、TensorBoard

4.训练参数

llamafactory-cli train \

    --stage sft \

    --do_train True \

    --model_name_or_path /home/qhyz/zxy/LLaMA-Factory/model \

    --preprocessing_num_workers 16 \

    --finetuning_type lora \

    --template alpaca \

    --rope_scaling dynamic \

    --flash_attn fa2 \

    --dataset_dir data \

    --dataset SFT_medicalKnowledge_source1_548404,SFT_medicalKnowledge_source2_99334,SFT_medicalKnowledge_source3_556540 \

    --cutoff_len 1048 \

    --learning_rate 0.00025 \

    --num_train_epochs 3.0 \

    --max_samples 50000 \

    --per_device_train_batch_size 2 \

    --gradient_accumulation_steps 12 \

    --lr_scheduler_type cosine \

    --max_grad_norm 1.0 \

    --logging_steps 10 \

    --save_steps 100 \

    --warmup_steps 20 \

    --packing True \

    --neat_packing True \

    --report_to tensorboard --logging_dir single_lora_qwen_log\

    --output_dir saves/DeepSeek-R1-7B-Distill/lora/train_2025-05-20-08-33-51 \

    --bf16 True \

    --plot_loss True \

    --trust_remote_code True \

    --ddp_timeout 180000000 \

    --include_num_input_tokens_seen True \

    --optim adamw_torch \

    --lora_rank 8 \

    --lora_alpha 16 \

    --lora_dropout 0.1 \

    --loraplus_lr_ratio 3 \

    --create_new_adapter True \

    --use_dora True \

    --lora_target q_proj,v_proj \

    --val_size 0.03 \

    --eval_strategy steps \

    --eval_steps 100 \

    --per_device_eval_batch_size 2 \

--deepspeed cache/ds_z2_config.json

6.训练过程截图

7.参数变化截图

10.服务器

在6卡的4090服务器上进行训练

http://www.xdnf.cn/news/557425.html

相关文章:

  • CSS display有几种属性值
  • 深入理解 Python 中的几种方法:实例方法、类方法、静态方法与特殊方法
  • leetcode 162. Find Peak Element
  • python新手学习笔记①
  • Linux探秘:驾驭开源,解锁高效能——基础指令
  • Git命令使用全攻略:从创建分支到合并的完整流程
  • 大模型高效微调技术全面解析:从PEFT原理到实战应用
  • 项目进度延误,如何按时交付?
  • 预训练模型:深度学习的通用特征引擎
  • Greenplum数据库维护篇之常用操作指导
  • TripGenie:畅游济南旅行规划助手:个人工作纪实(十八)
  • Windows逆向工程提升之IMAGE_DOS_HEADER
  • 定时任务延迟任务
  • linux内核编译学习笔记
  • Java异常处理与File类终极指南
  • 【基础知识】SPI协议的种类及异同
  • 数据库 1.0.1
  • DAY28类
  • MYSQL备份恢复知识:第四章:备份锁
  • 【优秀三方库研读】在 quill 开源库中为什么封装 safe_fwrite,而不是直接使用系统 fwrite
  • MySQL中添加一个具有创建数据库权限的用户
  • Java并发进阶系列:深度讨论jdk1.8 ConcurrentHashMap并发环境下transfer方法桶位分配过程
  • C/C++ Select Poll Epoll 多路转接
  • python -> matplotlib简单用法
  • Unity3D仿星露谷物语开发47之砍树时落叶特效
  • Wan2.1 加速推理方法
  • 使用cursor自动生成前后端分离的web应用程序
  • ROS2 pkg 创建功能包
  • [ 计算机网络 ] 深入理解OSI七层模型
  • 经验过程简介与suprema的集中(Guntuboyina理论统计学笔记)