当前位置: 首页 > ai >正文

LoRA至今历程回顾(74)

LoRA至今历程回顾

    • 使用模型已有的模板
    • LoRA至今历程
    • PEFT 模型

使用模型已有的模板

如果某个模型是使用特定模板训练或微调的,那么若你想在该模型上进行推理,就必须使用完全相同的模板。

若你正在进行微调,在绝对必要的情况下,或许可以使用不同的模板,但通常而言,继续使用模型已熟悉的模板会是更优选择。无需重复造轮子。

LoRA至今历程

在上一课中,我们为已完成量化的模型添加了低秩适配器(Low-rank adapters)。通常情况下,模型会以 FP16(16 位浮点数)精度加载非量化层,但为便于后续训练,最好将层归一化(layer norms)等层转换为 FP32(32 位浮点数)精度(此操作由prepare_model_for_kbit_training()函数完成)。

适配器本身的秩(rank)配置为 8 到 32 之间的不同数值,且 alpha 值(缩放系数)设定为秩的两倍。

在最终的 PEFT 模型中,默认仅适配器可参与训练;除非在配置中通过modules_to_save参数指定其他可训练模块。

PEFT 模型

以下是我们的 PEFT 模型:

 # From Session 2
2 supported = torch
http://www.xdnf.cn/news/19667.html

相关文章:

  • 《水浒智慧》第二部 “英雄是怎么炼成的” (上篇)读书笔记
  • Linux文本处理工具
  • 机器算法(五)模型选择与调优
  • 基于SpringBoot的广科大在线图书管理系统设计与实现(代码+数据库+LW)
  • 探索JavaScript机器学习:几款流行的库推荐
  • Leetcode 3670. Maximum Product of Two Integers With No Common Bits
  • HTML第四课:个人简介页面开发
  • 下载速度爆表,全平台通用,免费拿走!
  • DaemonSet Job CronJob 概念理解
  • XML在线格式化 - 加菲工具
  • Leetcode二分查找(3)
  • 移动硬盘删除东西后,没有释放空间
  • 【机器学习入门】5.2 回归的起源——从身高遗传到线性模型的百年演变
  • 狄利克雷分布作用
  • CentOS 创建站点
  • 二进制流进行预览pdf、excel、docx
  • Cisco FMC利用sftp Server拷贝文件方法
  • 0902 C++类的匿名对象
  • 面试问题:c++的内存管理方式,delete的使用,vector的resize和reverse,容量拓展
  • uni-app 布局之 Flex
  • 基于STM32与华为云联动的智能电动车充电桩管理系统
  • QSlider 和 QProgressBar 的区别与实践
  • 【Linux基础】Linux系统启动:深入解析Linux系统启动完整流程
  • 仿真波导中超短脉冲传输中的各种非线性效应所产生的超连续谱
  • AI如何理解PDF中的表格和图片?
  • qt安装FFmpeg后编译遇到error: collect2.exe: error: ld returned 1 exit status错误
  • 链表题类型注解解惑:理解Optional,理解ListNode
  • 数据结构--跳表(Skip List)
  • 【学Python自动化】 7. Python 输入与输出学习笔记
  • kaggle中的2D目标检测训练trick总结