当前位置：首页 > news >正文

首次中医知识问答模型微调

news 2025/7/12 20:06:01

1.微调目标模型

DeepSeek-R1-Distill-7B

2.数据准备

数据集SylvanL/Traditional-Chinese-Medicine-Dataset-SFT中的部分数据，微调时总计使用150000

3.训练平台及参数变化观察平台

LLaMA-Factory、TensorBoard

4.训练参数

llamafactory-cli train \

--stage sft \

--do_train True \

--model_name_or_path /home/qhyz/zxy/LLaMA-Factory/model \

--preprocessing_num_workers 16 \

--finetuning_type lora \

--template alpaca \

--rope_scaling dynamic \

--flash_attn fa2 \

--dataset_dir data \

--dataset SFT_medicalKnowledge_source1_548404,SFT_medicalKnowledge_source2_99334,SFT_medicalKnowledge_source3_556540 \

--cutoff_len 1048 \

--learning_rate 0.00025 \

--num_train_epochs 3.0 \

--max_samples 50000 \

--per_device_train_batch_size 2 \

--gradient_accumulation_steps 12 \

--lr_scheduler_type cosine \

--max_grad_norm 1.0 \

--logging_steps 10 \

--save_steps 100 \

--warmup_steps 20 \

--packing True \

--neat_packing True \

--report_to tensorboard --logging_dir single_lora_qwen_log\

--output_dir saves/DeepSeek-R1-7B-Distill/lora/train_2025-05-20-08-33-51 \

--bf16 True \

--plot_loss True \

--trust_remote_code True \

--ddp_timeout 180000000 \

--include_num_input_tokens_seen True \

--optim adamw_torch \

--lora_rank 8 \

--lora_alpha 16 \

--lora_dropout 0.1 \

--loraplus_lr_ratio 3 \

--create_new_adapter True \

--use_dora True \

--lora_target q_proj,v_proj \

--val_size 0.03 \

--eval_strategy steps \

--eval_steps 100 \

--per_device_eval_batch_size 2 \

--deepspeed cache/ds_z2_config.json

6.训练过程截图

7.参数变化截图

10.服务器

在6卡的4090服务器上进行训练

查看全文

http://www.xdnf.cn/news/557425.html

CSS display有几种属性值

深入理解 Python 中的几种方法：实例方法、类方法、静态方法与特殊方法

leetcode 162. Find Peak Element

python新手学习笔记①

Linux探秘：驾驭开源，解锁高效能——基础指令

Git命令使用全攻略：从创建分支到合并的完整流程

大模型高效微调技术全面解析：从PEFT原理到实战应用

项目进度延误，如何按时交付？

预训练模型：深度学习的通用特征引擎

Greenplum数据库维护篇之常用操作指导

TripGenie：畅游济南旅行规划助手：个人工作纪实(十八）

Windows逆向工程提升之IMAGE_DOS_HEADER

【优秀三方库研读】在 quill 开源库中为什么封装 safe_fwrite，而不是直接使用系统 fwrite

MySQL中添加一个具有创建数据库权限的用户

Java并发进阶系列：深度讨论jdk1.8 ConcurrentHashMap并发环境下transfer方法桶位分配过程

C/C++ Select Poll Epoll 多路转接

python -＞ matplotlib简单用法

Unity3D仿星露谷物语开发47之砍树时落叶特效

Wan2.1 加速推理方法

使用cursor自动生成前后端分离的web应用程序

ROS2 pkg 创建功能包

[ 计算机网络 ] 深入理解OSI七层模型

经验过程简介与suprema的集中（Guntuboyina理论统计学笔记）

相关文章：