当前位置: 首页 > news >正文

LoRA怎么和Base模型完成输出 ;LoRA完整计算过程; lora前向传播和反向传播 计算过程举例

LoRA怎么和Base模型完成输出 ;LoRA完整计算过程

目录

  • LoRA怎么和Base模型完成输出 ;LoRA完整计算过程
      • 原理层面
      • 计算过程层面
        • 前向传播计算
        • 反向传播计算
      • 应用场景层面
  • lora前向传播和反向传播 计算过程举例
      • 前向传播
      • 反向传播
  • 为什么标量 0.1 可以转换为一个对角矩阵,即主对角线元素为 0.1:仅仅是空间维度缩放

在这里插入图片描述

原理层面

LoRA的核心思想是在不改变预训练Base模型原有参数的基础上,引入额外的低秩矩阵来进行微调。Base模型是经过大规模数据预训练得到的,已经学习到了丰富的语言知识和语义表示。LoRA通过在Base模型的某些关键层(如Transformer的注意力层)添加低秩分解矩阵,利用这些额外的可训练参数对Base模型进行微调,以适应特定的下游任务。所以,LoRA是基于Base模型的结构和参数进行扩展和优化的,没有Base模型,LoRA就失去了其存在的基础。

计算过程层面

前向传播计算

以Transformer架构中的注意力层为例,在计算查询(Query)、键(Key)和值(Value)时,传统的Base模型通过线性变换得到:

http://www.xdnf.cn/news/52633.html

相关文章:

  • 在 Debian 10.x 安装和配置 Samba
  • 构建具备推理与反思能力的高级 Prompt:LLM 智能代理设计指南
  • 《MySQL:MySQL表的约束-主键/复合主键/唯一键/外键》
  • POSIX标准系统调用详解:从概念到实践
  • Java 实体类链式操作
  • leetcode 1035. Uncrossed Lines
  • Java的IO流 - 字节流和字符流
  • 测试新版oda teigha,开发webcad,实现在线查看dwg图纸
  • 哪个开源协议对用户最友好?开源协议对比
  • springboot自动装配的原理
  • Vite打包原理: Tree-shaking在Vue3项目中的实际效果
  • 浅聊docker的联合文件系统
  • get和post的区别
  • 基于 JavaWeb 的 SpringBoot 办公 ERP 管理系统设计与实现(源码+文档+部署讲解)
  • 1~4字节的CRC32非暴力破解,在线工具手工计算
  • 基于 Elasticsearch 8.12.0 集群热词实现
  • 大模型应用开发自学笔记
  • C++ 俄罗斯方块 | Tetris⚡YQW · Studio ⚡【无需下载图片】
  • 英式英语与美式英语的拼写差异
  • Cesium 地形加载
  • 如何部署MCP Sever【SSE通信方式】及调试
  • 从浏览器地址栏输入 URL 到网页显示,这中间发生了什么?
  • data_analysis29
  • seate TCC模式案例
  • 征程 6 VIO 通路断流分析
  • 基于FPGA的四层电梯设计系统设计和实现
  • 19年电赛D题硬件详解
  • C语言自增自减题目
  • 安全技术和防火墙
  • JVM 学习