一文定義
勾配降下法とは、損失関数の勾配(微分)を計算してパラメータを更新するニューラルネットワーク学習の基本アルゴリズムです。SGD・Adam・AdamWなどが派生形で、LLMのfine-tuningでも中心的な最適化手法です。
詳細解説
勾配降下法(Gradient Descent)とは、最小化したい目的関数(損失関数)の各パラメータに対する偏微分(勾配)を計算し、損失が小さくなる方向(勾配の逆方向)にパラメータを少しずつ更新することでモデルを学習させるアルゴリズムです。ニューラルネットワーク学習の中心的な手法です。
勾配降下法が重要な理由は、数十億のパラメータを持つニューラルネットワークに対して「損失を最小化するパラメータ」を効率的に探索する方法として、理論的に有効であり実装も可能な唯一のスケーラブルな手法だからです。バックプロパゲーションと組み合わせることで、出力の誤差を逆方向に伝播させながら各パラメータの勾配を計算できます。
主な変種として、確率的勾配降下法(SGD:全データの代わりに1サンプルの勾配を使う)、ミニバッチ勾配降下法(少数のサンプルの平均勾配を使う)、Momentum(過去の勾配の方向を考慮)、Adam(適応的学習率、現在最も広く使われる)、AdamW(Adamに重み減衰を追加、LLM fine-tuningの標準)などがあります。learning-rateの設定が収束速度と最終性能に大きく影響し、warm-up・コサインアニーリングなどのスケジューリングが実務で多用されます。
参考情報・出典
- ▸Gradient descent - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸An overview of gradient descent optimization algorithms— arXiv / Ruder (2016)(参照日: 2026-02-26)