一文定義
ニューラルネットワークの学習開始時の重みの設定方法。Xavier初期化・He初期化が代表例で、勾配消失・爆発を防ぎ学習を安定させる。
詳細解説
重み初期化(Weight Initialization)とは、ニューラルネットワークの学習を開始する際に各層の重みパラメータにどのような初期値を設定するかを決定する手法です。不適切な初期化は勾配消失(勾配が0に近づき学習が止まる)や勾配爆発(勾配が発散し学習が不安定になる)を引き起こすため、深いネットワークを安定して学習させる上で重要な設計要素です。
代表的な初期化手法として、(1)Xavier初期化(Glorot初期化):入力・出力の次元数に応じて一様分布または正規分布から初期値をサンプリング。Sigmoid・Tanhを活性化関数とする層に適し、各層の活性化の分散を均一に保つ、(2)He初期化(Kaiming初期化):ReLU系活性化関数向けに設計されたXavierの改良版。入力次元数のみを考慮し、ReLUが負の入力を0にする非対称性を補正する、(3)ゼロ初期化:バイアス項(bias)は通常0で初期化するが、重み行列をすべてゼロにすると「対称性の破れ」がなく全ニューロンが同じ勾配を受け取るため使用不可があります。
トランスフォーマーでは、Embedding層・Self-Attention層・FFN層それぞれに適した初期化が設定されています。GPTシリーズでは残差接続を通過する層の重みをスケールダウンする「スケール調整初期化」を採用し、深いネットワークの学習安定性を高めています。
プレトレーニング済みモデルをファインチューニングする際は、ベースモデルの重みを初期値として使用するため、ランダム初期化よりはるかに高速に収束します。
参考情報・出典
- ▸Understanding the difficulty of training deep feedforward neural networks— PMLR / Glorot & Bengio (2010)(参照日: 2026-02-26)
- ▸Delving Deep into Rectifiers – He et al. (2015)— arXiv(参照日: 2026-02-26)