AI学习指南深度学习篇——带动量的随机梯度下降法的基本原理
引言
在深度学习中,优化算法被广泛应用于训练神经网络模型。随机梯度下降法(SGD)是最常用的优化算法之一,但单独使用SGD在收敛速度和稳定性方面存在一些问题。为了应对这些挑战,动量法应运而生。本文将详细介绍动量法的原理,包括动量的概念、指数加权移动平均、参数更新等内容,最后通过实际示例展示动量如何帮助SGD在参数更新过程中平稳地前进。
什么是动量?
动量最初是物理学中的一个概念,用于描述物体的运动。动量法在优化算法中引入了一个“动量”项,帮助在优化过程中加速以及平滑更新。动量可以看作是对过去梯度的“回忆”,这种技术使得优化算法能够在一定程度上克服SGD固有的震荡,并在某些方向上加速前进。
动量的基本想法
动量法利用了梯度的历史信息,通常通过对过去几次梯度更新的加权求和,来决定当前参数的更新方向。具体来说,当模型在某一方向上的梯度变化较小,而在另一个方向上的梯度变化较大时,动量法能够加快在有效方向上的更新,从而提高收敛速度。
在动量更新中,我们维护一个动量变量 (v),它根据历史梯度逐步更新。动量变量对当前梯度的影响越来越大,而对较久以前的梯度影响逐渐减小。
指数加权移动平均
动量法的核心在于指数加权移动平均(Exponential Moving Average,EMA)。通过对过去的梯度施加一个衰减因子,EMA 使得新的梯度对更新的影响更大,而较旧的梯度的影响逐渐减小。
公式表示
假设我们在第 (t) 次迭代中计算得到的梯度为 (g_t),动量变量 (v_t) 的更新公式为:
[
v
t
=
β
v
t
−
1
+
(
1
−
β
)
g
t
]
[ v_t = beta v_{t-1} + (1 – beta) g_t ]
[vt=βvt−1+(1−β)gt]
其中,
(
β
)
(beta)
(β) 是动量系数,通常设置为接近于1(例如,0.9 或 0.99)。这样,动量变量
(
v
t
)
(v_t)
(vt) 会逐渐地保留历史梯度信息,同时抑制噪声带来的干扰。参数的更新则通过以下公式完成:
[
θ
t
=
θ
t
−
1
−
α
v
t
]
[ theta_t = theta_{t-1} – alpha v_t ]
[θt=θt−1−αvt]
这里,
(
α
)
(alpha)
(α) 是学习率。
动量在参数更新中的作用
在采用动量法后,参数更新的路径会更加平滑和稳定。具体来说,动量带来的优势主要体现在以下几个方面:
-
加速收敛:在深度的损失曲面中,有些方向会出现较大的梯度,而另一些方向的梯度可能会相对较小。动量方法通过对历史梯度的重置,能够在大的梯度方向上加速更新。
-
减小震荡:SGD 的震荡通常会导致模型难以在局部最优点附近平稳地收敛。动量法通过平滑的优化路径减少这种震荡,使得更新方向更加稳定。
-
逃离局部最优:通过保持较高的动量,有时候模型将能够逃离局部最优点,因为动量会推动参数在一定方向上继续移动。
实际示例
为了更好地理解和运用带动量的随机梯度下降法,我们将展示一个实际示例。假设我们要训练一个简单的线性回归模型,损失函数为均方误差(MSE)。
1. 线性回归模型
模型的预测公式为:
[
y
^
=
w
x
+
b
]
[ hat{y} = wx + b ]
[y^=wx+b]
其中,
(
w
)
(w)
(w) 是权重,
(
b
)
(b)
(b) 是偏差。损失函数定义为:
[
L
(
w
,
b
)
=
1
n
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
]
[ L(w, b) = frac{1}{n} sum_{i=1}^{n} (y_i – hat{y}_i)^2 ]
[L(w,b)=n1i=1∑n(yi−y^i)2]
2. 梯度计算
对于每个参数 (w) 和 (b),我们需要计算它们的梯度:
[
∂
L
∂
w
=
−
2
n
∑
i
=
1
n
(
y
i
−
y
^
i
)
⋅
x
i
]
[ frac{partial L}{partial w} = -frac{2}{n} sum_{i=1}^{n} (y_i – hat{y}_i) cdot x_i ]
[∂w∂L=−n2i=1∑n(yi−y^i)⋅xi]
[
∂
L
∂
b
=
−
2
n
∑
i
=
1
n
(
y
i
−
y
^
i
)
]
[ frac{partial L}{partial b} = -frac{2}{n} sum_{i=1}^{n} (y_i – hat{y}_i) ]
[∂b∂L=−n2i=1∑n(yi−y^i)]
3. 动量更新
在训练过程中,我们将使用动量方法更新权重和偏差。以下是代码示例(以 Python 和 NumPy 为例):
import numpy as np
# 超参数
alpha = 0.01 # 学习率
beta = 0.9 # 动量系数
num_epochs = 1000 # 训练轮次
# 模型参数
w = np.random.randn() # 权重初始化
b = np.random.randn() # 偏差初始化
# 动量变量初始化
v_w = 0
v_b = 0
# 训练数据(示例)
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 5, 7, 11])
# 训练过程
for epoch in range(num_epochs):
# 计算预测值
y_pred = w * X + b
# 计算损失
loss = np.mean((y - y_pred) ** 2)
# 计算梯度
grad_w = -2 * np.mean((y - y_pred) * X)
grad_b = -2 * np.mean(y - y_pred)
# 更新动量
v_w = beta * v_w + (1 - beta) * grad_w
v_b = beta * v_b + (1 - beta) * grad_b
# 更新参数
w -= alpha * v_w
b -= alpha * v_b
if epoch % 100 == 0:
print(f"Epoch {epoch}, Loss: {loss}, w: {w}, b: {b}")
print(f"Final parameters: w: {w}, b: {b}")
4. 结果分析
通过上述代码,我们定义了一个简单的线性回归模型,在训练过程中应用动量法以进行参数更新。需要注意的是,我们在每个轮次中计算损失以及参数,通过调整学习率和动量系数,从而观察到模型如何逐步收敛。
在使用动量法后,我们会发现与普通SGD相比,损失下降得更快,参数更新更加平滑,最终得到的模型效果更好。
总结
动量法是优化算法中一个极其重要的概念,它通过对历史梯度的加权平均来稳定参数更新过程,提高收敛速度。通过引入动量,我们能够在训练过程中减少震荡,快速逃离局部最优,达到更好的收敛效果。
本文对动量法的原理、公式以及实践应用进行了详细的介绍,期望能够为你在深度学习的道路上提供有益的帮助。希望在未来的学习中,大家能够深入掌握动量法及其变种,为构建更为复杂和精确的模型奠定基础。
评论(0)