当前位置: 首页 > java >正文

LLaMA-Factory 中配置文件或命令行里各个参数的含义

常见参数分类 & 含义对照表:

🔹模型相关

参数含义
model_name_or_path基础模型的路径(本地或 HuggingFace Hub 上的名字,如 meta-llama/Llama-2-7b-hf)
adapter_name_or_pathLoRA/Adapter 权重路径(如果要在已有权重上继续训练或推理)
cache_dir模型缓存路径
use_fast_tokenizer是否使用 fast tokenizer(基于 tokenizers 的实现,速度快)
resize_vocab是否根据新增的 special tokens 扩充词表

🔹 数据集相关

参数含义
dataset使用的数据集名称(框架内置如 alpaca_gpt4,也可以自定义)
dataset_dir数据集目录路径
templatePrompt 模板(例如 alpaca、vicuna,会决定输入拼接格式)
cutoff_len每条样本的最大 token 长度(超出会被截断)
max_samples限制训练时使用的最大样本数(调试时用)

🔹 训练相关

参数含义
do_train是否进行训练
do_eval是否进行评估
output_dir模型保存目录
num_train_epochs训练的总 epoch 数
max_steps如果指定,训练到该步数后停止(优先级高于 num_train_epochs)
per_device_train_batch_size每张 GPU 的训练 batch size
gradient_accumulation_steps梯度累计步数,用于模拟更大 batch
learning_rate学习率
lr_scheduler_type学习率调度器(linear, cosine, constant等)
warmup_steps / warmup_ratio学习率预热步数/比例
weight_decay权重衰减系数
max_grad_norm梯度裁剪阈值
logging_steps日志打印间隔
save_steps模型保存间隔(步数)
save_total_limit只保留最近的多少个 checkpoint

🔹 PEFT / LoRA 参数

参数含义
finetuning_type微调方式:lora, full, freeze, qlora
lora_rankLoRA 低秩矩阵维度 r
lora_alphaLoRA 缩放系数 α
lora_dropoutLoRA dropout 比例
target_modules应用 LoRA 的模块(默认 q_proj,k_proj,v_proj,o_proj)

🔹 推理/生成相关

参数含义
do_predict是否运行预测/推理
max_new_tokens生成时最大新 token 数
temperature生成时温度(越高越随机)
top_k采样时 top-k
top_pnucleus sampling 概率阈值
repetition_penalty重复惩罚系数

🔹 量化相关

参数含义
quantization_bit量化比特数(4, 8等)
bnb_4bit_use_double_quant是否使用双重量化
bnb_4bit_quant_type量化类型(如 nf4、fp4)
bnb_4bit_compute_dtype计算时数据类型(float16/bfloat16)

🔹 其他常用参数

参数含义
seed随机数种子(保证可复现)
report_to日志上报方式(wandb, tensorboard, none)
ddp_find_unused_parameters分布式训练时是否查找未用参数(DDP 必要选项)
http://www.xdnf.cn/news/18637.html

相关文章:

  • 如何利用 DeepSeek 提升工作效率
  • 10.Shell脚本修炼手册---脚本的条件测试与比较
  • 国家自然科学基金(国自然基金)申请技巧详解
  • 深度学习入门:神经网络
  • 【2025CVPR-目标检测方向】UniMamba:基于激光雷达的3D目标检测,采用分组高效曼巴语进行统一空间信道表示学习
  • Q/DR/CX7.2-2020 是中国企业标准体系中
  • 一个备份、去除、新增k8s的node标签脚本
  • `strdup` 字符串复制函数
  • 【JVM内存结构系列】二、线程私有区域详解:程序计数器、虚拟机栈、本地方法栈——搞懂栈溢出与线程隔离
  • 奇怪的前端面试题
  • 智能系统与未来生态演进初步思考
  • LangChain4j中集成Redis向量数据库实现Rag
  • 2-4.Python 编码基础 - 流程控制(判断语句、循环语句、break 语句与 continue 语句)
  • 【Python】新手入门:Python标准库有哪些常用模块?
  • 容器安全实践(二):实践篇 - 从 `Dockerfile` 到 Pod 的权限深耕
  • 美食菜谱数据集(13943条)收集 | 智能体知识库 | AI大模型训练
  • 自学嵌入式第二十六天:数据结构-哈希表、内核链表
  • 从0开始学习Java+AI知识点总结-23.web实战案例(班级和学生增删改查、信息统计)
  • 【Prometheus】Prometheus监控Docker实战
  • C++编程语言:标准库:第36章——字符串类(Bjarne Stroustrup)
  • 【C语言16天强化训练】从基础入门到进阶:Day 8
  • Krea Video:Krea AI推出的AI视频生成工具
  • 知识蒸馏 Knowledge Distillation 序列的联合概率 分解成 基于历史的条件概率的连乘序列
  • 大模型——深度评测智能体平台Coze Studio
  • 2025-08-23 李沐深度学习19——长短期记忆网络LSTM
  • Kafka Streams vs Apache Flink vs Apache Storm: 实时流处理方案对比与选型建议
  • SpringBootWeb入门
  • Ollama 本地部署 Qwen2.5-7b
  • 搜索--常见面试问题
  • Android 之wifi连接流程