基礎概念

オプティマイザー

オプティマイザー

一文定義

ニューラルネットワークの学習で損失関数を最小化するパラメータ更新アルゴリズム。SGD・Adam・AdamWが代表例。LLM学習ではAdamWが標準。

詳細解説

オプティマイザー(Optimizer)とは、ニューラルネットワークの学習において、損失関数の勾配情報を使って重みパラメータを更新するアルゴリズムです。「どの方向に、どの大きさで重みを更新するか」を決定する学習の中枢機構であり、学習速度・安定性・最終精度に大きく影響します。

主要なオプティマイザーの系譜として、(1)SGD(確率的勾配降下法):ランダムに選んだミニバッチの勾配で更新するシンプルな手法。モメンタムを加えたSGD+Momentumがベースライン、(2)AdaGrad:各パラメータに適応的な学習率を適用。頻出パラメータの学習率を下げて希少パラメータを重視するが、学習率が単調減少し続ける問題あり、(3)RMSprop:AdaGradの改良で指数移動平均を使い学習率の過度な減衰を防ぐ、(4)Adam(Adaptive Moment Estimation):モメンタム(1次モーメント)と適応的学習率(2次モーメント)を組み合わせた実用的な高性能オプティマイザー。Kingma & Ba 2015が発表し深層学習の標準に、(5)AdamW:Adamに正しいL2正則化(Weight Decay)を組み合わせた改良版。大規模LLMの事前学習・ファインチューニングの事実上の標準です。

LLMの学習では、AdamWにコサイン学習率スケジューラー(ウォームアップ期間後にコサイン関数に従って学習率を減衰)を組み合わせるパターンが標準的です。ただしAdamは各パラメータに対してm(1次モーメント)とv(2次モーメント)の2つの状態変数を保持するため、モデルパラメータの3倍のメモリが必要になります。大規模モデルの訓練でのメモリ効率改善のため、8ビット量子化Adamなどが研究されています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る