您的位置:

PyTorch优化库torch.optim详解

PyTorch是深度学习界最为火热的框架之一,而torch.optim作为PyTorch中的优化库,其不仅为深度学习模型的训练提供了高效、快捷的方式,同时也为各种优化算法的实现提供了标准化的接口。本文将从torch.optim的基本使用出发,逐一解析SGD、RMSprop、Adam、LBFGS、AdamW、Adagrad、SWA等优化算法,并深入剖析torch.optim中的参数设定和优化过程。

一、torch.optim.SGD

随机梯度下降法(Stochastic Gradient Descent, SGD)是一种最基本、最经典、也是最广泛使用的优化算法。在torch.optim中,SGD的默认learning rate为0.1,但在实际使用中,不同的模型和数据常常需要选取不同的learning rate才能达到最好的效果。


    import torch.optim as optim
    
    # 定义模型和损失函数
    model = Net()
    criterion = nn.CrossEntropyLoss()
    
    # 定义优化器
    optimizer = optim.SGD(model.parameters(), lr=0.01)
    
    # 训练模型
    for epoch in range(num_epochs):
        for inputs, labels in dataloader:
            optimizer.zero_grad()
            
            # 前向传播
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            
            # 反向传播
            loss.backward()
            optimizer.step()

在使用SGD时,我们可以通过实验选取最佳的learning rate。如果learning rate太小,模型训练速度会变缓,并有可能陷入局部最优解;如果learning rate太大,模型训练速度会显著提升,但会导致模型过早散开,无法收敛到最优结果。

二、torch.optim.SGD参数

除了learning rate之外,SGD还有一些其他的参数可以调整。其中,“momentum”是SGD的一个重要参数,它可以让模型沿着之前一定的方向继续前进,从而避免陷入局部最优解。这里以momentum=0.9为例进行演示。


    # 定义优化器
    optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

同时,可以通过设置weight_decay来控制网络的正则化程度,从而尽可能避免过拟合。


    # 定义优化器
    optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=0.001)

三、torch.optim.rmsprop

除了SGD之外,RMSprop也是一种经典的优化算法。在RMSprop中,学习率会因为历史梯度的大小而逐渐减小。


    # 定义优化器
    optimizer = optim.RMSprop(model.parameters(), lr=0.001, alpha=0.99)

其中alpha表示梯度的权重,当alpha越小时,历史梯度的影响就越小。如下例子演示了如何实现动态地改变learning rate。


    # 定义优化器
    optimizer = optim.RMSprop(model.parameters(), lr=0.001, alpha=0.99)
    
    # 动态地更新learning rate
    scheduler = StepLR(optimizer, step_size=1, gamma=0.1)

四、torch.optim.adam

Adam是一种自适应学习率的优化算法,它能够适应不同维度的梯度,并调整学习率。Adam也是当前最为流行的优化算法之一。下面是Adam在PyTorch中的实现方法。


    # 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))

其中betas分别指的是一阶矩估计的指数衰减率和二阶矩估计的指数衰减率。

五、torch.optim.LBFGS

L-BFGS是一种拟牛顿法,它在模型参数空间中近似Hessian矩阵,并对其进行更新。L-BFGS通常使用于小样本、高维度的问题上。下面是如何在PyTorch中使用L-BFGS。


    # 定义优化器
    optimizer = optim.LBFGS(model.parameters(), lr=0.01, max_iter=20)
    
    # 定义训练函数
    def closure():
        optimizer.zero_grad()
        output = model(input)
        loss = criterion(output, target)
        loss.backward()
        return loss
        
    # 训练模型
    for epoch in range(num_epochs):
        optimizer.step(closure)

在使用L-BFGS时,我们可以通过设置max_iter来控制迭代次数。同时,由于L-BFGS只能处理一小批数据,因此在每个迭代步骤中都需要先清空优化器。

六、torch.optim.adamw

AdamW与Adam非常相似,但AdamW加入了权重衰减(Weight Decay)。权重衰减能够限制W的大小,避免过拟合。下面是如何在PyTorch中使用AdamW。


    # 定义优化器
    optimizer = optim.AdamW(model.parameters(), lr=0.001, betas=(0.9, 0.999), weight_decay=0.01)

七、torch.optim.Adagrad

Adagrad是一种累计梯度优化算法,可以自适应地调整学习率,更快更好地训练模型。下面是如何在PyTorch中使用Adagrad的方法。


    # 定义优化器
    optimizer = optim.Adagrad(model.parameters(), lr=0.01, weight_decay=0.01)

八、torch.optim.adam参数

Adam优化器中还有一些参数需要设置,下面将逐一介绍。

1)eps:用于稳定模型求解,避免出现除以0的情况。


    # 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=0.001, eps=1e-08)

2)amsgrad:是否使用AMSGrad方法来保证梯度的平稳性。


    # 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=0.001, amsgrad=True)

九、torch.optim.swa_utils

SWA是一种基于SGD的优化算法,它通过计算所有epoch中的模型的均值,并将其作为最终模型。SWA具有快速收敛和较好的泛化能力,因此在深度学习领域中非常受欢迎。

在PyTorch中使用SWA需要进行如下操作:


    # 导入swa_utils
    from torch.optim.swa_utils import AveragedModel, SWALR
    
    # 定义优化器
    optimizer = optim.SGD(model.parameters(), lr=0.1)
    
    # 运用SWA策略
    swa_model = AveragedModel(model)
    swa_start = 10
    swa_scheduler = SWALR(optimizer, swa_lr=0.05)
    
    for epoch in range(num_epochs):
        for inputs, labels in dataloader:
            optimizer.zero_grad()
            
            # 前向传播
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            
            # 反向传播
            loss.backward()
            optimizer.step()
            
            # SWA模型更新
            if epoch > swa_start:
                swa_model.update_parameters(model)
                swa_scheduler.step()
                
        # 保存模型
        if epoch > swa_start:
            swa_model = swa_model.to('cpu')
            torch.save({
                'epoch': epoch,
                'model_state_dict': swa_model.state_dict(),
                'optimizer_state_dict': optimizer.state_dict(),
                'loss': loss
            }, './checkpoints/model_{}.pth'.format(epoch))
            swa_model.cuda()

其中,AveragedModel用于计算所有epoch中的模型的均值,通过SWALR策略来动态地更新learning rate。

十、torch.optim.Optimizer

在PyTorch中,所有的优化器都继承自torch.optim.Optimizer类。通过该类,我们可以方便地实现各种优化算法。下面是Optimzier类的一个简单示例。


    class MyOptimizer(torch.optim.Optimizer):
        def __init__(self, params, lr=0.1, momentum=0.9):
            defaults = dict(lr=lr, momentum=momentum)
            super(MyOptimizer, self).__init__(params, defaults)
            
        def __setstate__(self, state):
            super(MyOptimizer, self).__setstate__(state)
        
        def step(self, closure=None):
            loss = None
            if closure is not None:
                loss = closure()
                
            for group in self.param_groups:
                lr = group['lr']
                momentum = group['momentum']
                
                for p in group['params']:
                    if p.grad is None:
                        continue
                        
                    d_p = p.grad.data
                    if momentum != 0:
                        param_state = self.state[p]
                        if 'momentum_buffer' not in param_state:
                            buf = param_state['momentum_buffer'] = torch.zeros_like(p.data)
                            buf.mul_(momentum).add_(d_p)
                            p.data.add_(-lr, buf)
                            
            return loss

通过自定义Optimzer,我们可以更加灵活地实现各种优化算法。