refactor(optimizer): use `optimizer_cls_and_kwargs` for custom optim #2012

NanoCode012 · 2024-11-04T12:02:17Z

Breaking change

Deprecates alternate_optimizer. Move to use optimizer instead to consolidate.

Refactors the optimizer handling to offload from create_optimizer into the Trainer instead. Only lora_plus requires overriding that function now.

ao_adamw_4bit is available on transformers as adamw_torch_4bit.
lion_pytorch is available on transformers as lion_32bit.
Removed default handling of loraplus_lr_embedding to let it inherit from Model Input class instead
Updated docs to include new upstream optimizers

TODO:

Verify adamw_anyprecision is not affected
Verify Galore is not affected
Discuss whether to support other optimi optimizers https://optimi.benjaminwarner.dev/which_optimizer/
Update transformers to commit that includes the linked PR
Test custom optimizers
Test upstream optimizers

This is due to upstream PR opening a new config huggingface/transformers#34358

Once some time passes:

…zers

NanoCode012 added 2 commits November 4, 2024 18:47

refactor(optimizer): use optimizer_cls_and_kwargs for custom optimi…

737fe9e

…zers

fix: remove unneeded param

75e37be

NanoCode012 added the waiting on upstream label Nov 11, 2024