PyTorch是深度学习界最为火热的框架之一,而torch.optim作为PyTorch中的优化库,其不仅为深度学习模型的训练提供了高效、快捷的方式,同时也为各种优化算法的实现提供了标准化的接口。本文将从torch.optim的基本使用出发,逐一解析SGD、RMSprop、Adam、LBFGS、AdamW、Adagrad、SWA等优化算法,并深入剖析torch.optim中的参数设定和优化过程。
一、torch.optim.SGD
随机梯度下降法(Stochastic Gradient Descent, SGD)是一种最基本、最经典、也是最广泛使用的优化算法。在torch.optim中,SGD的默认learning rate为0.1,但在实际使用中,不同的模型和数据常常需要选取不同的learning rate才能达到最好的效果。
import torch.optim as optim
# 定义模型和损失函数
model = Net()
criterion = nn.CrossEntropyLoss()
# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01)
# 训练模型
for epoch in range(num_epochs):
for inputs, labels in dataloader:
optimizer.zero_grad()
# 前向传播
outputs = model(inputs)
loss = criterion(outputs, labels)
# 反向传播
loss.backward()
optimizer.step()
在使用SGD时,我们可以通过实验选取最佳的learning rate。如果learning rate太小,模型训练速度会变缓,并有可能陷入局部最优解;如果learning rate太大,模型训练速度会显著提升,但会导致模型过早散开,无法收敛到最优结果。
二、torch.optim.SGD参数
除了learning rate之外,SGD还有一些其他的参数可以调整。其中,“momentum”是SGD的一个重要参数,它可以让模型沿着之前一定的方向继续前进,从而避免陷入局部最优解。这里以momentum=0.9为例进行演示。
# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
同时,可以通过设置weight_decay来控制网络的正则化程度,从而尽可能避免过拟合。
# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=0.001)
三、torch.optim.rmsprop
除了SGD之外,RMSprop也是一种经典的优化算法。在RMSprop中,学习率会因为历史梯度的大小而逐渐减小。
# 定义优化器
optimizer = optim.RMSprop(model.parameters(), lr=0.001, alpha=0.99)
其中alpha表示梯度的权重,当alpha越小时,历史梯度的影响就越小。如下例子演示了如何实现动态地改变learning rate。
# 定义优化器
optimizer = optim.RMSprop(model.parameters(), lr=0.001, alpha=0.99)
# 动态地更新learning rate
scheduler = StepLR(optimizer, step_size=1, gamma=0.1)
四、torch.optim.adam
Adam是一种自适应学习率的优化算法,它能够适应不同维度的梯度,并调整学习率。Adam也是当前最为流行的优化算法之一。下面是Adam在PyTorch中的实现方法。
# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))
其中betas分别指的是一阶矩估计的指数衰减率和二阶矩估计的指数衰减率。
五、torch.optim.LBFGS
L-BFGS是一种拟牛顿法,它在模型参数空间中近似Hessian矩阵,并对其进行更新。L-BFGS通常使用于小样本、高维度的问题上。下面是如何在PyTorch中使用L-BFGS。
# 定义优化器
optimizer = optim.LBFGS(model.parameters(), lr=0.01, max_iter=20)
# 定义训练函数
def closure():
optimizer.zero_grad()
output = model(input)
loss = criterion(output, target)
loss.backward()
return loss
# 训练模型
for epoch in range(num_epochs):
optimizer.step(closure)
在使用L-BFGS时,我们可以通过设置max_iter来控制迭代次数。同时,由于L-BFGS只能处理一小批数据,因此在每个迭代步骤中都需要先清空优化器。
六、torch.optim.adamw
AdamW与Adam非常相似,但AdamW加入了权重衰减(Weight Decay)。权重衰减能够限制W的大小,避免过拟合。下面是如何在PyTorch中使用AdamW。
# 定义优化器
optimizer = optim.AdamW(model.parameters(), lr=0.001, betas=(0.9, 0.999), weight_decay=0.01)
七、torch.optim.Adagrad
Adagrad是一种累计梯度优化算法,可以自适应地调整学习率,更快更好地训练模型。下面是如何在PyTorch中使用Adagrad的方法。
# 定义优化器
optimizer = optim.Adagrad(model.parameters(), lr=0.01, weight_decay=0.01)
八、torch.optim.adam参数
Adam优化器中还有一些参数需要设置,下面将逐一介绍。
1)eps:用于稳定模型求解,避免出现除以0的情况。
# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001, eps=1e-08)
2)amsgrad:是否使用AMSGrad方法来保证梯度的平稳性。
# 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001, amsgrad=True)
九、torch.optim.swa_utils
SWA是一种基于SGD的优化算法,它通过计算所有epoch中的模型的均值,并将其作为最终模型。SWA具有快速收敛和较好的泛化能力,因此在深度学习领域中非常受欢迎。
在PyTorch中使用SWA需要进行如下操作:
# 导入swa_utils
from torch.optim.swa_utils import AveragedModel, SWALR
# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.1)
# 运用SWA策略
swa_model = AveragedModel(model)
swa_start = 10
swa_scheduler = SWALR(optimizer, swa_lr=0.05)
for epoch in range(num_epochs):
for inputs, labels in dataloader:
optimizer.zero_grad()
# 前向传播
outputs = model(inputs)
loss = criterion(outputs, labels)
# 反向传播
loss.backward()
optimizer.step()
# SWA模型更新
if epoch > swa_start:
swa_model.update_parameters(model)
swa_scheduler.step()
# 保存模型
if epoch > swa_start:
swa_model = swa_model.to('cpu')
torch.save({
'epoch': epoch,
'model_state_dict': swa_model.state_dict(),
'optimizer_state_dict': optimizer.state_dict(),
'loss': loss
}, './checkpoints/model_{}.pth'.format(epoch))
swa_model.cuda()
其中,AveragedModel用于计算所有epoch中的模型的均值,通过SWALR策略来动态地更新learning rate。
十、torch.optim.Optimizer
在PyTorch中,所有的优化器都继承自torch.optim.Optimizer类。通过该类,我们可以方便地实现各种优化算法。下面是Optimzier类的一个简单示例。
class MyOptimizer(torch.optim.Optimizer):
def __init__(self, params, lr=0.1, momentum=0.9):
defaults = dict(lr=lr, momentum=momentum)
super(MyOptimizer, self).__init__(params, defaults)
def __setstate__(self, state):
super(MyOptimizer, self).__setstate__(state)
def step(self, closure=None):
loss = None
if closure is not None:
loss = closure()
for group in self.param_groups:
lr = group['lr']
momentum = group['momentum']
for p in group['params']:
if p.grad is None:
continue
d_p = p.grad.data
if momentum != 0:
param_state = self.state[p]
if 'momentum_buffer' not in param_state:
buf = param_state['momentum_buffer'] = torch.zeros_like(p.data)
buf.mul_(momentum).add_(d_p)
p.data.add_(-lr, buf)
return loss
通过自定义Optimzer,我们可以更加灵活地实现各种优化算法。