一文定義
ニューラルネットワークの学習で損失関数を最小化するパラメータ更新アルゴリズム。SGD・Adam・AdamWが代表例。LLM学習ではAdamWが標準。
詳細解説
オプティマイザー(Optimizer)とは、ニューラルネットワークの学習において、損失関数の勾配情報を使って重みパラメータを更新するアルゴリズムです。「どの方向に、どの大きさで重みを更新するか」を決定する学習の中枢機構であり、学習速度・安定性・最終精度に大きく影響します。
主要なオプティマイザーの系譜として、(1)SGD(確率的勾配降下法):ランダムに選んだミニバッチの勾配で更新するシンプルな手法。モメンタムを加えたSGD+Momentumがベースライン、(2)AdaGrad:各パラメータに適応的な学習率を適用。頻出パラメータの学習率を下げて希少パラメータを重視するが、学習率が単調減少し続ける問題あり、(3)RMSprop:AdaGradの改良で指数移動平均を使い学習率の過度な減衰を防ぐ、(4)Adam(Adaptive Moment Estimation):モメンタム(1次モーメント)と適応的学習率(2次モーメント)を組み合わせた実用的な高性能オプティマイザー。Kingma & Ba 2015が発表し深層学習の標準に、(5)AdamW:Adamに正しいL2正則化(Weight Decay)を組み合わせた改良版。大規模LLMの事前学習・ファインチューニングの事実上の標準です。
LLMの学習では、AdamWにコサイン学習率スケジューラー(ウォームアップ期間後にコサイン関数に従って学習率を減衰)を組み合わせるパターンが標準的です。ただしAdamは各パラメータに対してm(1次モーメント)とv(2次モーメント)の2つの状態変数を保持するため、モデルパラメータの3倍のメモリが必要になります。大規模モデルの訓練でのメモリ効率改善のため、8ビット量子化Adamなどが研究されています。
参考情報・出典
- ▸Adam: A Method for Stochastic Optimization— arXiv / Kingma & Ba (2015)(参照日: 2026-02-26)
- ▸Decoupled Weight Decay Regularization (AdamW)— arXiv / Loshchilov & Hutter (2019)(参照日: 2026-02-26)