活性化関数とは？わかりやすく解説

一文定義

ニューラルネットワークの各ニューロンに非線形変換を加える関数。ReLU・Sigmoid・GELUが代表例。非線形性がなければ深層学習は線形変換と等価になる。

詳細解説

活性化関数（Activation Function）とは、ニューラルネットワークの各ニューロン（ノード）に適用される非線形変換関数です。線形変換である全結合層（重み行列の積と和）だけを何層重ねても、数学的に単一の線形変換と等価になってしまうため、非線形な活性化関数を挟むことで深層ネットワークが複雑なパターンを学習できるようになります。

代表的な活性化関数として、(1)ReLU（Rectified Linear Unit）：f(x) = max(0, x) という単純な関数で計算効率が高く、ディープラーニングの標準。負の値をゼロにするため「死んだReLU」問題が発生することも、(2)Sigmoid：出力を0〜1に圧縮し二値分類の出力層で使用。勾配消失問題が起きやすいため中間層では現在あまり使われない、(3)GELU（Gaussian Error Linear Unit）：確率的な非線形変換でBERT・GPTなどTransformerの標準。Swish・SiLUも類似の特性を持ちLlamaシリーズが採用、(4)Tanh：-1〜1の出力でSigmoidより対称性があるがやはり勾配消失の問題がある、(5)Softmax：複数ニューロンの出力を確率分布に変換する出力層専用があります。

Transformerのフィードフォワード層では、2層の全結合層の間にGELU/SiLU活性化が配置されるのが一般的です。活性化関数の選択はモデルの収束速度・精度・計算効率に影響するため、アーキテクチャ設計の重要な選択の一つです。

参考情報・出典

▸
Deep Learning – Goodfellow et al. (2016)— MIT Press（参照日: 2026-02-26）
▸
Activation function – Wikipedia— Wikipedia（参照日: 2026-02-26）

活性化関数

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する