一文定義
学習時にランダムにニューロンを無効化して過学習を防ぐ正則化手法。推論時は全ニューロンを使用し重みをスケール調整する。
詳細解説
ドロップアウト(Dropout)とは、ニューラルネットワークの学習時に各ニューロンを確率p(通常0.1〜0.5)でランダムに無効化(ゼロに設定)する正則化手法です。Srivastavaらが2014年に発表し、「ニューラルネットワークのシンプルかつ強力な過学習防止手法」として深く学習に革命をもたらしました。
直感的な理解として、ドロップアウトは毎回異なる部分ネットワーク(サブネットワーク)を学習させることで、特定のニューロンの組み合わせへの過度な依存(共起適応)を防ぎます。これは「多様なモデルのアンサンブル」に近い効果を1つのモデルで実現します。
推論時の挙動として、学習時はニューロンを確率pで無効化しますが、推論時は全ニューロンを使用します。ただし期待値を合わせるため重みを(1-p)倍にスケーリングします(Inverted Dropout)。
Transformerアーキテクチャでは、アテンション層・フィードフォワード層の後やResidual Connection内でドロップアウトが適用されます。大規模LLMの事前学習では比較的低いドロップアウト率(0.0〜0.1)が使われる傾向があります。BERTは0.1、GPT-2は0.1を採用しています。
注意点として、ドロップアウトは学習を遅くする(収束に必要なエポック数が増える)トレードオフがあります。バッチ正規化やレイヤー正規化が普及したことで、大規模モデルではドロップアウトへの依存が以前より低下しています。
参考情報・出典
- ▸Dropout: A Simple Way to Prevent Neural Networks from Overfitting— JMLR / Srivastava et al. (2014)(参照日: 2026-02-26)
- ▸Dropout – Wikipedia— Wikipedia(参照日: 2026-02-26)