一文定義
ニューラルネットワークの各ニューロンに非線形変換を加える関数。ReLU・Sigmoid・GELUが代表例。非線形性がなければ深層学習は線形変換と等価になる。
詳細解説
活性化関数(Activation Function)とは、ニューラルネットワークの各ニューロン(ノード)に適用される非線形変換関数です。線形変換である全結合層(重み行列の積と和)だけを何層重ねても、数学的に単一の線形変換と等価になってしまうため、非線形な活性化関数を挟むことで深層ネットワークが複雑なパターンを学習できるようになります。
代表的な活性化関数として、(1)ReLU(Rectified Linear Unit):f(x) = max(0, x) という単純な関数で計算効率が高く、ディープラーニングの標準。負の値をゼロにするため「死んだReLU」問題が発生することも、(2)Sigmoid:出力を0〜1に圧縮し二値分類の出力層で使用。勾配消失問題が起きやすいため中間層では現在あまり使われない、(3)GELU(Gaussian Error Linear Unit):確率的な非線形変換でBERT・GPTなどTransformerの標準。Swish・SiLUも類似の特性を持ちLlamaシリーズが採用、(4)Tanh:-1〜1の出力でSigmoidより対称性があるがやはり勾配消失の問題がある、(5)Softmax:複数ニューロンの出力を確率分布に変換する出力層専用があります。
Transformerのフィードフォワード層では、2層の全結合層の間にGELU/SiLU活性化が配置されるのが一般的です。活性化関数の選択はモデルの収束速度・精度・計算効率に影響するため、アーキテクチャ設計の重要な選択の一つです。
参考情報・出典
- ▸Deep Learning – Goodfellow et al. (2016)— MIT Press(参照日: 2026-02-26)
- ▸Activation function – Wikipedia— Wikipedia(参照日: 2026-02-26)