当前位置：首页 > news >正文

大模型微调（面经总结）

news 2025/5/29 20:58:05

持续更新中

一、LORA篇
- 1、介绍一下Lora的原理
- 2、LoRA 是为了解决什么问题提出的？哪些模型适合用 LoRA 微调？什么是低秩分解？
- - - **低秩分解：用小矩阵逼近大矩阵**
- 3、LoRA初始化
- 4、LoRA初始化秩 r 是怎么选的？为什么不选其他值？
- - 📌 一般经验：
- 5、LoRA家族
- - 5.1 LoRA+
  - 4.2 VeRA
  - 4.3 QLoRA

一、LORA篇

1、介绍一下Lora的原理

LoRA 是一种参数高效微调方法，其核心思想是将原始权重矩阵的更新限制在一个低秩空间内，从而显著减少训练参数量。
不同于传统微调，LoRA 将权重的更新项 $\Delta W$ 表示为两个低秩矩阵 $\in \mathbb{R}^{r \times d}$ 和 $\in \mathbb{R}^{d \times r}$ 的乘积：
$\Delta W = W + BA$
训练阶段只更新两个低秩矩阵 $A$ 和 $B$ ，原始模型权重 $W$ 保持不变；

2、LoRA 是为了解决什么问题提出的？哪些模型适合用 LoRA 微调？什么是低秩分解？

LoRA 的核心目标：降低大模型微调成本 参数量从 $O(d^2)$ → $O (r d)$
适合含大量线性层的 Transformer 架构模型 比如注意力模块的 Q/K/V 投影矩阵、FFN前馈神经网络等

低秩分解：用小矩阵逼近大矩阵

定义：低秩分解是将高维矩阵近似为两个低维矩阵的乘积，以降低表示复杂度。
数学形式：对于 $\times d$ 的高维矩阵 $W$ ，找到两个低维矩阵 $\in \mathbb{R}^{r \times d}$ 和 $\in \mathbb{R}^{d \times r}$ 的乘积，使得：

$\approx BA$

(A) 是 降维矩阵：将原始 $d$ 维空间映射到 $r$ 维子空间（提取关键特征）。
(B) 是 升维矩阵：将 $r$ 维特征恢复到 $d$ 维空间（重构原始空间的更新）。
优势：通过仅优化 (A) 和 (B) 的 $2 r d$ 个参数（远小于 $d^2$ ），即可近似表达 (W) 的主要变化，大幅减少计算量。

3、LoRA初始化

LoRA 的初始化通常遵循以下原则：

原始模型权重 W 不变

LoRA 的矩阵：

$A$ 通常使用正态分布初始化：nn.Linear(..., bias=False) 默认初始化
$B$ 通常初始化为 全零矩阵，这样一开始 $\Delta W = B A = 0$ ，模型输出不会被扰动，保证收敛稳定性

如果A也初始化成0，这样都没法更新了。对于

对于 $y = B A x$ ：

对 B 的梯度： $\displaystyle \frac{\partial L}{\partial B} = \frac{\partial L}{\partial y} \cdot (A x)^T$
对 A 的梯度： $\displaystyle \frac{\partial L}{\partial A} = B^T \cdot \left( \frac{\partial L}{\partial y} \right) \cdot x^T$
向量对矩阵求导规则：
如果：

$y = B z$
$\in \mathbb{R}^{d \times r}$
$\in \mathbb{R}^{r}$
则有：
$\frac{\partial L}{\partial B} = \frac{\partial L}{\partial y} \cdot z^T$
📌 这是矩阵微积分中经典的链式法则：
$\frac{\partial L}{\partial y}$ 是 $d$ 维行向量（外层loss对每个输出的导数）
$z^T$ 是 $\times r$ 行向量
所以它们的乘积是一个 $\times r$ 的矩阵（和 B 同型）