pytorch-image-models/timm/optim/optim_factory.py

""" Optimizer Factory w/ Custom Weight Decay
Hacked together by / Copyright 2020 Ross Wightman
"""
from typing import Optional

import torch
import torch.nn as nn
import torch.optim as optim

from .adafactor import Adafactor
from .adahessian import Adahessian
from .adamp import AdamP
from .lookahead import Lookahead
from .nadam import Nadam
from .novograd import NovoGrad
from .nvnovograd import NvNovoGrad
from .radam import RAdam
from .rmsprop_tf import RMSpropTF
from .sgdp import SGDP

try:
    from apex.optimizers import FusedNovoGrad, FusedAdam, FusedLAMB, FusedSGD
    has_apex = True
except ImportError:
    has_apex = False


def add_weight_decay(model, weight_decay=1e-5, skip_list=()):
    decay = []
    no_decay = []
    for name, param in model.named_parameters():
        if not param.requires_grad:
            continue  # frozen weights
        if len(param.shape) == 1 or name.endswith(".bias") or name in skip_list:
            no_decay.append(param)
        else:
            decay.append(param)
    return [
        {'params': no_decay, 'weight_decay': 0.},
        {'params': decay, 'weight_decay': weight_decay}]


def optimizer_kwargs(cfg):
    """ cfg/argparse to kwargs helper
    Convert optimizer args in argparse args or cfg like object to keyword args for updated create fn.
    """
    kwargs = dict(opt_name=cfg.opt, lr=cfg.lr, weight_decay=cfg.weight_decay)
    if getattr(cfg, 'opt_eps', None) is not None:
        kwargs['eps'] = cfg.opt_eps
    if getattr(cfg, 'opt_betas', None) is not None:
        kwargs['betas'] = cfg.opt_betas
    if getattr(cfg, 'opt_args', None) is not None:
        kwargs.update(cfg.opt_args)
    kwargs['momentum'] = cfg.momentum
    return kwargs


def create_optimizer(args, model, filter_bias_and_bn=True):
    """ Legacy optimizer factory for backwards compatibility.
    NOTE: Use create_optimizer_v2 for new code.
    """
    opt_args = dict(lr=args.lr, weight_decay=args.weight_decay, momentum=args.momentum)
    if hasattr(args, 'opt_eps') and args.opt_eps is not None:
        opt_args['eps'] = args.opt_eps
    if hasattr(args, 'opt_betas') and args.opt_betas is not None:
        opt_args['betas'] = args.opt_betas
    if hasattr(args, 'opt_args') and args.opt_args is not None:
        opt_args.update(args.opt_args)
    return create_optimizer_v2(model, opt_name=args.opt, filter_bias_and_bn=filter_bias_and_bn, **opt_args)


def create_optimizer_v2(
        model: nn.Module,
        opt_name: str = 'sgd',
        lr: Optional[float] = None,
        weight_decay: float = 0.,
        momentum: float = 0.9,
        filter_bias_and_bn: bool = True,
        **kwargs):
    """ Create an optimizer.

    TODO currently the model is passed in and all parameters are selected for optimization.
    For more general use an interface that allows selection of parameters to optimize and lr groups, one of:
      * a filter fn interface that further breaks params into groups in a weight_decay compatible fashion
      * expose the parameters interface and leave it up to caller

    Args:
        model (nn.Module): model containing parameters to optimize
        opt_name: name of optimizer to create
        lr: initial learning rate
        weight_decay: weight decay to apply in optimizer
        momentum:  momentum for momentum based optimizers (others may use betas via kwargs)
        filter_bias_and_bn:  filter out bias, bn and other 1d params from weight decay
        **kwargs: extra optimizer specific kwargs to pass through

    Returns:
        Optimizer
    """
    opt_lower = opt_name.lower()
    if weight_decay and filter_bias_and_bn:
        skip = {}
        if hasattr(model, 'no_weight_decay'):
            skip = model.no_weight_decay()
        parameters = add_weight_decay(model, weight_decay, skip)
        weight_decay = 0.
    else:
        parameters = model.parameters()
    if 'fused' in opt_lower:
        assert has_apex and torch.cuda.is_available(), 'APEX and CUDA required for fused optimizers'

    opt_args = dict(lr=lr, weight_decay=weight_decay, **kwargs)
    opt_split = opt_lower.split('_')
    opt_lower = opt_split[-1]
    if opt_lower == 'sgd' or opt_lower == 'nesterov':
        opt_args.pop('eps', None)
        optimizer = optim.SGD(parameters, momentum=momentum, nesterov=True, **opt_args)
    elif opt_lower == 'momentum':
        opt_args.pop('eps', None)
        optimizer = optim.SGD(parameters, momentum=momentum, nesterov=False, **opt_args)
    elif opt_lower == 'adam':
        optimizer = optim.Adam(parameters, **opt_args)
    elif opt_lower == 'adamw':
        optimizer = optim.AdamW(parameters, **opt_args)
    elif opt_lower == 'nadam':
        optimizer = Nadam(parameters, **opt_args)
    elif opt_lower == 'radam':
        optimizer = RAdam(parameters, **opt_args)
    elif opt_lower == 'adamp':        
        optimizer = AdamP(parameters, wd_ratio=0.01, nesterov=True, **opt_args)
    elif opt_lower == 'sgdp':
        optimizer = SGDP(parameters, momentum=momentum, nesterov=True, **opt_args)
    elif opt_lower == 'adadelta':
        optimizer = optim.Adadelta(parameters, **opt_args)
    elif opt_lower == 'adafactor':
        if not lr:
            opt_args['lr'] = None
        optimizer = Adafactor(parameters, **opt_args)
    elif opt_lower == 'adahessian':
        optimizer = Adahessian(parameters, **opt_args)
    elif opt_lower == 'rmsprop':
        optimizer = optim.RMSprop(parameters, alpha=0.9, momentum=momentum, **opt_args)
    elif opt_lower == 'rmsproptf':
        optimizer = RMSpropTF(parameters, alpha=0.9, momentum=momentum, **opt_args)
    elif opt_lower == 'novograd':
        optimizer = NovoGrad(parameters, **opt_args)
    elif opt_lower == 'nvnovograd':
        optimizer = NvNovoGrad(parameters, **opt_args)
    elif opt_lower == 'fusedsgd':
        opt_args.pop('eps', None)
        optimizer = FusedSGD(parameters, momentum=momentum, nesterov=True, **opt_args)
    elif opt_lower == 'fusedmomentum':
        opt_args.pop('eps', None)
        optimizer = FusedSGD(parameters, momentum=momentum, nesterov=False, **opt_args)
    elif opt_lower == 'fusedadam':
        optimizer = FusedAdam(parameters, adam_w_mode=False, **opt_args)
    elif opt_lower == 'fusedadamw':
        optimizer = FusedAdam(parameters, adam_w_mode=True, **opt_args)
    elif opt_lower == 'fusedlamb':
        optimizer = FusedLAMB(parameters, **opt_args)
    elif opt_lower == 'fusednovograd':
        opt_args.setdefault('betas', (0.95, 0.98))
        optimizer = FusedNovoGrad(parameters, **opt_args)
    else:
        assert False and "Invalid optimizer"
        raise ValueError

    if len(opt_split) > 1:
        if opt_split[0] == 'lookahead':
            optimizer = Lookahead(optimizer)

    return optimizer
Fix some attributions, add copyrights to some file docstrings 4 years ago			`""" Optimizer Factory w/ Custom Weight Decay`
			`Hacked together by / Copyright 2020 Ross Wightman`
			`"""`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`from typing import Optional`

Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`import torch`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`import torch.nn as nn`
			`import torch.optim as optim`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago
			`from .adafactor import Adafactor`
			`from .adahessian import Adahessian`
			`from .adamp import AdamP`
			`from .lookahead import Lookahead`
			`from .nadam import Nadam`
			`from .novograd import NovoGrad`
			`from .nvnovograd import NvNovoGrad`
			`from .radam import RAdam`
			`from .rmsprop_tf import RMSpropTF`
			`from .sgdp import SGDP`

Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`try:`
			`from apex.optimizers import FusedNovoGrad, FusedAdam, FusedLAMB, FusedSGD`
			`has_apex = True`
			`except ImportError:`
			`has_apex = False`
Uniform pretrained model handling. * All models have 'default_cfgs' dict * load/resume/pretrained helpers factored out * pretrained load operates on state_dict based on default_cfg * test all models in validate * schedule, optim factor factored out * test time pool wrapper applied based on default_cfg 6 years ago

Exclude batchnorm and bias params from weight_decay by default 6 years ago			`def add_weight_decay(model, weight_decay=1e-5, skip_list=()):`
			`decay = []`
			`no_decay = []`
			`for name, param in model.named_parameters():`
			`if not param.requires_grad:`
			`continue # frozen weights`
			`if len(param.shape) == 1 or name.endswith(".bias") or name in skip_list:`
			`no_decay.append(param)`
			`else:`
			`decay.append(param)`
			`return [`
			`{'params': no_decay, 'weight_decay': 0.},`
			`{'params': decay, 'weight_decay': weight_decay}]`


Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`def optimizer_kwargs(cfg):`
			`""" cfg/argparse to kwargs helper`
			`Convert optimizer args in argparse args or cfg like object to keyword args for updated create fn.`
			`"""`
			`kwargs = dict(opt_name=cfg.opt, lr=cfg.lr, weight_decay=cfg.weight_decay)`
			`if getattr(cfg, 'opt_eps', None) is not None:`
			`kwargs['eps'] = cfg.opt_eps`
			`if getattr(cfg, 'opt_betas', None) is not None:`
			`kwargs['betas'] = cfg.opt_betas`
			`if getattr(cfg, 'opt_args', None) is not None:`
			`kwargs.update(cfg.opt_args)`
			`kwargs['momentum'] = cfg.momentum`
			`return kwargs`


Update benchmark script to add precision arg. Fix some downstream (DeiT) compat issues with latest changes. Bump version to 0.4.7 4 years ago			`def create_optimizer(args, model, filter_bias_and_bn=True):`
			`""" Legacy optimizer factory for backwards compatibility.`
			`NOTE: Use create_optimizer_v2 for new code.`
			`"""`
			`opt_args = dict(lr=args.lr, weight_decay=args.weight_decay, momentum=args.momentum)`
			`if hasattr(args, 'opt_eps') and args.opt_eps is not None:`
			`opt_args['eps'] = args.opt_eps`
			`if hasattr(args, 'opt_betas') and args.opt_betas is not None:`
			`opt_args['betas'] = args.opt_betas`
			`if hasattr(args, 'opt_args') and args.opt_args is not None:`
			`opt_args.update(args.opt_args)`
			`return create_optimizer_v2(model, opt_name=args.opt, filter_bias_and_bn=filter_bias_and_bn, **opt_args)`


			`def create_optimizer_v2(`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`model: nn.Module,`
			`opt_name: str = 'sgd',`
			`lr: Optional[float] = None,`
			`weight_decay: float = 0.,`
			`momentum: float = 0.9,`
			`filter_bias_and_bn: bool = True,`
			`**kwargs):`
			`""" Create an optimizer.`

			`TODO currently the model is passed in and all parameters are selected for optimization.`
			`For more general use an interface that allows selection of parameters to optimize and lr groups, one of:`
			`* a filter fn interface that further breaks params into groups in a weight_decay compatible fashion`
			`* expose the parameters interface and leave it up to caller`

			`Args:`
			`model (nn.Module): model containing parameters to optimize`
			`opt_name: name of optimizer to create`
			`lr: initial learning rate`
			`weight_decay: weight decay to apply in optimizer`
			`momentum: momentum for momentum based optimizers (others may use betas via kwargs)`
			`filter_bias_and_bn: filter out bias, bn and other 1d params from weight decay`
			`**kwargs: extra optimizer specific kwargs to pass through`

			`Returns:`
			`Optimizer`
			`"""`
			`opt_lower = opt_name.lower()`
Exclude batchnorm and bias params from weight_decay by default 6 years ago			`if weight_decay and filter_bias_and_bn:`
Add model based wd skip support. Improve cross version compat of optimizer factory. Fix #247 4 years ago			`skip = {}`
			`if hasattr(model, 'no_weight_decay'):`
Fix #262, num_classes arg mixup. Make vision_transformers a bit closer to other models wrt get/reset classfier/forward_features. Fix torchscript for ViT. 4 years ago			`skip = model.no_weight_decay()`
Add model based wd skip support. Improve cross version compat of optimizer factory. Fix #247 4 years ago			`parameters = add_weight_decay(model, weight_decay, skip)`
Exclude batchnorm and bias params from weight_decay by default 6 years ago			`weight_decay = 0.`
			`else:`
			`parameters = model.parameters()`
Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`if 'fused' in opt_lower:`
			`assert has_apex and torch.cuda.is_available(), 'APEX and CUDA required for fused optimizers'`

Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`opt_args = dict(lr=lr, weight_decay=weight_decay, **kwargs)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`opt_split = opt_lower.split('_')`
			`opt_lower = opt_split[-1]`
Add 'momentum' optimizer (SGD w/o nesterov) for stable EfficientDet training defaults 5 years ago			`if opt_lower == 'sgd' or opt_lower == 'nesterov':`
Fix issue in optim factory with sgd / eps flag. Bump version to 0.3.1 4 years ago			`opt_args.pop('eps', None)`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`optimizer = optim.SGD(parameters, momentum=momentum, nesterov=True, **opt_args)`
Add 'momentum' optimizer (SGD w/o nesterov) for stable EfficientDet training defaults 5 years ago			`elif opt_lower == 'momentum':`
Fix issue in optim factory with sgd / eps flag. Bump version to 0.3.1 4 years ago			`opt_args.pop('eps', None)`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`optimizer = optim.SGD(parameters, momentum=momentum, nesterov=False, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'adam':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = optim.Adam(parameters, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'adamw':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = optim.AdamW(parameters, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'nadam':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = Nadam(parameters, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'radam':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = RAdam(parameters, **opt_args)`
Add `adamp` and 'sgdp' optimizers. Update requirements.txt Update optim_factory.py Add `adamp` optimizer Update __init__.py copy files of adamp & sgdp Create adamp.py Update __init__.py Create sgdp.py Update optim_factory.py Update optim_factory.py Update requirements.txt Update adamp.py Update sgdp.py Update sgdp.py Update adamp.py 4 years ago			`elif opt_lower == 'adamp':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = AdamP(parameters, wd_ratio=0.01, nesterov=True, **opt_args)`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`elif opt_lower == 'sgdp':`
			`optimizer = SGDP(parameters, momentum=momentum, nesterov=True, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'adadelta':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = optim.Adadelta(parameters, **opt_args)`
			`elif opt_lower == 'adafactor':`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`if not lr:`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`opt_args['lr'] = None`
			`optimizer = Adafactor(parameters, **opt_args)`
			`elif opt_lower == 'adahessian':`
			`optimizer = Adahessian(parameters, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'rmsprop':`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`optimizer = optim.RMSprop(parameters, alpha=0.9, momentum=momentum, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'rmsproptf':`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`optimizer = RMSpropTF(parameters, alpha=0.9, momentum=momentum, **opt_args)`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago			`elif opt_lower == 'novograd':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = NovoGrad(parameters, **opt_args)`
Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`elif opt_lower == 'nvnovograd':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = NvNovoGrad(parameters, **opt_args)`
Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`elif opt_lower == 'fusedsgd':`
Fix issue in optim factory with sgd / eps flag. Bump version to 0.3.1 4 years ago			`opt_args.pop('eps', None)`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`optimizer = FusedSGD(parameters, momentum=momentum, nesterov=True, **opt_args)`
Add 'momentum' optimizer (SGD w/o nesterov) for stable EfficientDet training defaults 5 years ago			`elif opt_lower == 'fusedmomentum':`
Fix issue in optim factory with sgd / eps flag. Bump version to 0.3.1 4 years ago			`opt_args.pop('eps', None)`
Add benchmark.py script, and update optimizer factory to be more friendly to use outside of argparse interface. 4 years ago			`optimizer = FusedSGD(parameters, momentum=momentum, nesterov=False, **opt_args)`
Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`elif opt_lower == 'fusedadam':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = FusedAdam(parameters, adam_w_mode=False, **opt_args)`
Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`elif opt_lower == 'fusedadamw':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = FusedAdam(parameters, adam_w_mode=True, **opt_args)`
Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`elif opt_lower == 'fusedlamb':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`optimizer = FusedLAMB(parameters, **opt_args)`
Add Nvidia's NovogGrad impl from Jasper (cleaner/faster than current) and Apex Fused optimizers 5 years ago			`elif opt_lower == 'fusednovograd':`
Add Adafactor and Adahessian optimizers, cleanup optimizer arg passing, add gradient clipping support. 4 years ago			`opt_args.setdefault('betas', (0.95, 0.98))`
			`optimizer = FusedNovoGrad(parameters, **opt_args)`
Uniform pretrained model handling. * All models have 'default_cfgs' dict * load/resume/pretrained helpers factored out * pretrained load operates on state_dict based on default_cfg * test all models in validate * schedule, optim factor factored out * test time pool wrapper applied based on default_cfg 6 years ago			`else:`
			`assert False and "Invalid optimizer"`
			`raise ValueError`
Add RAdam, NovoGrad, Lookahead, and AdamW optimizers, a few ResNet tweaks and scheduler factory tweak. * Add some of the trendy new optimizers. Decent results but not clearly better than the standards. * Can create a None scheduler for constant LR * ResNet defaults to zero_init of last BN in residual * add resnet50d config 5 years ago
			`if len(opt_split) > 1:`
			`if opt_split[0] == 'lookahead':`
			`optimizer = Lookahead(optimizer)`

Uniform pretrained model handling. * All models have 'default_cfgs' dict * load/resume/pretrained helpers factored out * pretrained load operates on state_dict based on default_cfg * test all models in validate * schedule, optim factor factored out * test time pool wrapper applied based on default_cfg 6 years ago			`return optimizer`