当前位置: 首页 > news >正文

LLaMA-Factory 微调可配置的模型基本参数

LLaMA-Factory 微调可配置的模型基本参数

flyfish

基本参数

一、模型加载与路径配置

参数名类型描述默认值
model_name_or_pathOptional[str]模型路径(本地路径或 Huggingface/ModelScope 路径)。None
adapter_name_or_pathOptional[str]适配器路径(本地路径或 Huggingface/ModelScope 路径),多路径用逗号分隔。None
adapter_folderOptional[str]包含适配器权重的文件夹路径。None
cache_dirOptional[str]保存从 Hugging Face 或 ModelScope 下载的模型的本地路径。None
model_revisionstr所使用的特定模型版本。main
hf_hub_tokenOptional[str]用于登录 HuggingFace 的验证 token。None
ms_hub_tokenOptional[str]用于登录 ModelScope Hub 的验证 token。None
om_hub_tokenOptional[str]用于登录 Modelers Hub 的验证 token。None

二、分词器与词表配置

参数名类型描述默认值
use_fast_tokenizerbool是否使用 fast_tokenizer。True
resize_vocabbool是否调整词表和嵌入层的大小。False
split_special_tokensbool是否在分词时将 special token 分割。False
new_special_tokensOptional[str]要添加到 tokenizer 中的 special token,多个用逗号分隔。None

三、内存优化与加载策略

参数名类型描述默认值
low_cpu_mem_usagebool是否使用节省内存的模型加载方式。True
device_mapOptional[Union[str, Dict[str, Any]]]模型分配的设备映射(自动管理,无需手动指定)。None
offload_folderstr卸载模型权重的路径。offload
disable_gradient_checkpointingbool是否禁用梯度检查点。False
use_reentrant_gcbool是否启用可重入梯度检查点。True

四、性能优化与加速技术

参数名类型描述默认值
flash_attnLiteral["auto", "disabled", "sdpa", "fa2"]是否启用 FlashAttention 加速训练和推理。auto
shift_attnbool是否启用 Shift Short Attention (S²-Attn)。False
mixture_of_depthsOptional[Literal["convert", "load"]]模型转换为 Mixture of Depths (MoD) 模式的方式。None
use_unslothbool是否使用 unsloth 优化 LoRA 微调。False
use_unsloth_gcbool是否使用 unsloth 的梯度检查点。False
enable_liger_kernelbool是否启用 liger 内核以加速训练。False
moe_aux_loss_coefOptional[float]MoE 架构中 aux_loss 系数(控制专家负载均衡)。None

五、数值精度与计算配置

参数名类型描述默认值
upcast_layernormbool是否将 layernorm 层权重精度提高至 fp32。False
upcast_lmhead_outputbool是否将 lm_head 输出精度提高至 fp32。False
compute_dtypeOptional[torch.dtype]用于计算模型输出的数据类型(自动管理,无需手动指定)。None
infer_dtypeLiteral["auto", "float16", "bfloat16", "float32"]推理时的模型数据类型。auto

六、推理与生成配置

参数名类型描述默认值
infer_backendLiteral["huggingface", "vllm"]推理时使用的后端引擎。huggingface
use_cachebool是否在生成时使用 KV 缓存。True
model_max_lengthOptional[int]模型的最大输入长度(自动管理,无需手动指定)。None
block_diag_attnbool是否使用块对角注意力(自动管理,无需手动指定)。False

七、安全与调试配置

参数名类型描述默认值
trust_remote_codebool是否信任来自 Hub 上数据集/模型的代码执行。False
print_param_statusbool是否打印模型参数的状态。False
train_from_scratchbool是否随机初始化模型权重(从头训练)。False

八、位置编码与注意力机制

参数名类型描述默认值
rope_scalingOptional[Literal["linear", "dynamic", "yarn", "llama3"]]RoPE 缩放策略。None
http://www.xdnf.cn/news/1162657.html

相关文章:

  • ASP .NET Core 8高效集成Redis缓存实战
  • 相机标定(非ROS相机)
  • Linux的相关指令
  • 中文分词模拟器 - 华为OD统一考试(Java 题解)
  • vxe-table 通过配置 ajax 方式自动请求数据,适用于简单场景的列表
  • 《RISC-V 导论:设计与实践》开源课件(附下载链接)
  • 【web自动化】-5- fixture集中管理和项目重构
  • MTSC2025参会感悟:大模型 + CV 重构全终端 UI 检测技术体系
  • OR条件拆分:避免索引失效的查询重构技巧
  • 计算机网络第四章(3)——网络层《IPV4(子网划分、子网掩码)》
  • 模型系列(篇一)-Bert
  • Python Locust库详解:从入门到分布式压力测试实战
  • 5道挑战题writup
  • 跨端分栏布局:从手机到Pad的优雅切换
  • 将 RustFS 用作 GitLab 对象存储后端
  • 前后端分离项目进阶1---前端
  • Ubuntu 22.04 使用 Docker 安装 Redis 5 (安装包形式)
  • 设备虚拟化技术-IRF
  • 电子数据取证领域的双轮驱动——手工分析 vs 自动化分析
  • SpringSecurity 详细介绍(认证和授权)
  • 复制docker根目录遇到的权限问题
  • C++ - 仿 RabbitMQ 实现消息队列--服务端核心模块实现(二)
  • docker磁盘空间不足解决办法
  • MongoDB 查询时区问题
  • linux定时器使用
  • 3、Spring AI_DeepSeek模型-多轮对话
  • 江苏思必驰科技25Java实习面经
  • HTTP,HTTPS
  • 服务器系统时间不准确怎么办?
  • 图论基本算法