模型调优-梯度下降 -by SeptZhang

本文最后更新于：1 小时前

梯度下降（Gradient Descent）是一种常用的优化算法，广泛应用于机器学习和深度学习模型的训练过程中。其基本思想是通过迭代地调整模型参数，使得损失函数（Loss Function）逐步减小，从而找到最优参数。

1. 梯度下降的基本原理

梯度下降的目标是最小化损失函数 $L(\theta)$，其中 $\theta$ 表示模型参数。其基本步骤如下：

初始化参数：随机初始化模型参数 $\theta$。
计算梯度：计算损失函数关于参数的梯度 $\nabla_\theta L(\theta)$。
更新参数：根据梯度更新参数：
$$
\theta = \theta - \eta \nabla_\theta L(\theta)
$$
其中，$\eta$ 是学习率（Learning Rate），控制每次更新的步长。
迭代：重复步骤 2 和 3，直到损失函数收敛到一个较小的值或达到预设的迭代次数。

2. 梯度下降的变种

批量梯度下降（Batch Gradient Descent）

特点：每次迭代使用整个训练集计算梯度。
优点：收敛稳定。
缺点：计算开销大，尤其是对于大数据集。

随机梯度下降（Stochastic Gradient Descent, SGD）

特点：每次迭代使用一个样本计算梯度。
优点：计算速度快，能够逃脱局部最小值。
缺点：收敛不稳定，损失函数波动较大。

小批量梯度下降（Mini-batch Gradient Descent）

特点：每次迭代使用一个小批量的样本计算梯度。
优点：计算效率和收敛稳定性之间的折中，广泛应用于深度学习。

3. 学习率的选择

学习率 $\eta$ 的选择对梯度下降的效果至关重要：

学习率过大：可能导致损失函数震荡或发散。
学习率过小：收敛速度慢，可能陷入局部最小值。

常用的学习率调整方法包括：

固定学习率：在整个训练过程中保持不变。
学习率衰减：逐步减小学习率，如指数衰减。
自适应学习率：如 Adam、RMSprop 等优化算法，自动调整学习率。

4. 常用的梯度下降优化算法

Adam（Adaptive Moment Estimation）

Adam 结合了动量（Momentum）和 RMSprop 的优点，能够自适应地调整学习率。其更新规则如下：
$$
m_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla_\theta L(\theta)
$$

$$
v_t = \beta_2 v_{t-1} + (1 - \beta_2) (\nabla_\theta L(\theta))^2
$$

$$
\hat{m}_t = \frac{m_t}{1 - \beta_1^t}
$$

$$
\hat{v}_t = \frac{v_t}{1 - \beta_2^t}
$$

$$
\theta = \theta - \eta \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}
$$

其中，$\beta_1$ 和 $\beta_2$ 是动量项的指数衰减率，$\epsilon$ 是一个小常数，用于防止除零错误。

RMSprop

RMSprop 通过对梯度平方的指数加权移动平均来调整学习率：
$$
E[\nabla_\theta L(\theta)^2]t = \beta E[\nabla_\theta L(\theta)^2]{t-1} + (1 - \beta) (\nabla_\theta L(\theta))^2
$$

$$
\theta = \theta - \eta \frac{\nabla_\theta L(\theta)}{\sqrt{E[\nabla_\theta L(\theta)^2]_t} + \epsilon}
$$

5. 梯度下降的局限性

局部最小值：梯度下降可能陷入局部最小值，尤其是在非凸损失函数中。
鞍点：在高维空间中，梯度下降可能在鞍点处停滞。
计算开销：对于大型数据集，梯度计算可能非常耗时。

LLM

Prompr

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Harmonyos基本知识点整理下一篇