一文定義
学習率とは、勾配降下法で各ステップにパラメータを更新する大きさを制御するハイパーパラメータです。LLMのfine-tuningでも最重要のチューニングパラメータで、高すぎると発散、低すぎると収束が遅くなります。
詳細解説
学習率(Learning Rate)とは、勾配降下法においてパラメータをどの程度の大きさで更新するかを制御するハイパーパラメータです。数式では「新しいパラメータ = 古いパラメータ − 学習率 × 勾配」と表されます。学習率αが大きいと1ステップの更新量が大きく、小さいと小さくなります。
学習率が重要な理由は、ニューラルネットワークの学習において最も影響力の高いハイパーパラメータの一つだからです。学習率が高すぎると、損失関数の最小値を飛び越えて発散してしまいます。低すぎると収束が非常に遅く、局所最小値に陥りやすくなります。「ちょうど良い学習率」を見つけることが学習成功の鍵であり、これがhyperparameterチューニングの最重要タスクです。
実務的な手法として、learning rate warmup(最初は小さい学習率から始めて徐々に増やす)、cosine annealing(コサイン関数に従って学習率を減衰させる)、learning rate finder(最適な学習率を自動探索する)、cyclical learning rate(周期的に学習率を変動させる)などのスケジューリング手法が普及しています。LLMのfine-tuningでは、ベースモデルを壊さないよう通常1e-5〜1e-4程度の低い学習率が使われます。AdamWオプティマイザと組み合わせるのが現在の標準的な実践です。
参考情報・出典
- ▸Learning rate - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸Practical Deep Learning for Coders - fast.ai— fast.ai(参照日: 2026-02-26)