当前位置：首页 > ds >正文

优化算法 - intro

ds 2025/7/4 21:04:33

优化问题

一般形式
- minimize $f(\mathbf{x})$ subject to $\mathbf{x} \in C$
目标函数 $\mathbb{R}^n \rightarrow \mathbb{R}$
限制集合例子
- $\{\mathbf{x} | h_1(\mathbf{x}) = 0, ..., h_m(\mathbf{x}) = 0, g_1(\mathbf{x}) \leq 0, ..., g_r(\mathbf{x}) \leq 0\}$
如果 $\mathbb{R}^n$ 那就是不受限

全局最小 $\mathbf{x}^*$ : $f(\mathbf{x}^*) \leq f(\mathbf{x})$ ∀ $\mathbf{x} \in C$
局部最小 $\mathbf{x}^*$ : 存在 $\varepsilon$ , 使得 $f(\mathbf{x}^*) \leq f(\mathbf{x})$ ∀ $\mathbf{x}: \|\mathbf{x} - \mathbf{x}^*\| \leq \varepsilon$
使用迭代优化算法来求解，一般只能保证找到局部最小值

在这里插入图片描述

一个 $\mathbb{R}^n$ 的子集 $C$ 是凸当且仅当

$\alpha \mathbf{x} + (1 - \alpha) \mathbf{y} \in C$

$\forall \alpha \in [0,1] \; \forall \mathbf{x}, \mathbf{y} \in C$

最简单的迭代求解算法
选取开始点 $\mathbf{x}_0$
对 $\ldots, T$
- $\mathbf{x}_t = \mathbf{x}_{t-1} - \eta \nabla f(\mathbf{x}_{t-1})$
$\eta$ 叫做学习率

有 $n$ 个样本时，计算

$f(\mathbf{x}) = \frac{1}{n} \sum_{i=0}^{n} \ell_i(\mathbf{x})$ 的导数太贵
随机梯度下降在时间 $t$ 随机选项样本 $t_i$ 来近似 $f (x)$ （求导是线性可加的）

$\mathbf{x}_t = \mathbf{x}_{t-1} - \eta_t \nabla \ell_{t_i}(\mathbf{x}_{t-1})$

$\mathbb{E}\left[\nabla \ell_{t_i}(\mathbf{x})\right] = \mathbb{E}[\nabla f(\mathbf{x})]$

计算单样本的梯度难完全利用硬件资源
小批量随机梯度下降在时间 $t$ 采样一个随机子集 $I_t \subset \{1, ..., n\}$ 使得 $I_t| = b$

$\mathbf{x}_t = \mathbf{x}_{t-1} - \frac{\eta_t}{b} \sum_{i \in I_t} \nabla \ell_i(\mathbf{x}_{t-1})$
同样，这是一个无偏的近似，但降低了方差

$\mathbb{E}\left[\frac{1}{b} \sum_{i \in I_t} \nabla \ell_i(\mathbf{x})\right] = \nabla f(\mathbf{x})$

记录 $\mathbf{v}_t = \beta_1 \mathbf{v}_{t-1} + (1 - \beta_1) \mathbf{g}_t$ 通常 $\beta_1 = 0.9$
展开 $\mathbf{v}_t = (1 - \beta_1)(\mathbf{g}_t + \beta_1 \mathbf{g}_{t-1} + \beta_1^2 \mathbf{g}_{t-2} + \beta_1^3 \mathbf{g}_{t-3} + ...)$
因为 $\sum_{i=0}^{\infty} \beta_1^i = \frac{1}{1 - \beta_1}$ ，所以权重和为1
由于 $\mathbf{v}_0 = 0$ ，且 $\sum_{i=0}^{t} \beta_1^i = \frac{1 - \beta_1^t}{1 - \beta_1}$ ，
修正 $\hat{\mathbf{v}}_t = \frac{\mathbf{v}_t}{1 - \beta_1^t}$
类似记录 $\mathbf{s}_t = \beta_2 \mathbf{s}_{t-1} + (1 - \beta_2) \mathbf{g}_t^2$ ，通常 $\beta_2 = 0.999$ ，且修正

$\hat{\mathbf{s}}_t = \frac{\mathbf{s}_t}{1 - \beta_2^t}$
计算重新调整后的梯度 $\mathbf{g}'_t = \frac{\hat{\mathbf{v}}_t}{\sqrt{\hat{\mathbf{s}}_t} + \epsilon}$
最后更新 $\mathbf{w}_t = \mathbf{w}_{t-1} - \eta \mathbf{g}'_t$