基礎概念

活性化関数

かっせいかかんすう

一文定義

ニューラルネットワークの各ニューロンに非線形変換を加える関数。ReLU・Sigmoid・GELUが代表例。非線形性がなければ深層学習は線形変換と等価になる。

詳細解説

活性化関数(Activation Function)とは、ニューラルネットワークの各ニューロン(ノード)に適用される非線形変換関数です。線形変換である全結合層(重み行列の積と和)だけを何層重ねても、数学的に単一の線形変換と等価になってしまうため、非線形な活性化関数を挟むことで深層ネットワークが複雑なパターンを学習できるようになります。

代表的な活性化関数として、(1)ReLU(Rectified Linear Unit):f(x) = max(0, x) という単純な関数で計算効率が高く、ディープラーニングの標準。負の値をゼロにするため「死んだReLU」問題が発生することも、(2)Sigmoid:出力を0〜1に圧縮し二値分類の出力層で使用。勾配消失問題が起きやすいため中間層では現在あまり使われない、(3)GELU(Gaussian Error Linear Unit):確率的な非線形変換でBERT・GPTなどTransformerの標準。Swish・SiLUも類似の特性を持ちLlamaシリーズが採用、(4)Tanh:-1〜1の出力でSigmoidより対称性があるがやはり勾配消失の問題がある、(5)Softmax:複数ニューロンの出力を確率分布に変換する出力層専用があります。

Transformerのフィードフォワード層では、2層の全結合層の間にGELU/SiLU活性化が配置されるのが一般的です。活性化関数の選択はモデルの収束速度・精度・計算効率に影響するため、アーキテクチャ設計の重要な選択の一つです。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る