一文定義
層の入力を出力に直接加算するスキップ接続。勾配消失を防ぎ深いネットワークの学習を安定させる。Transformer・ResNetの基本構造。
詳細解説
残差接続(Residual Connection、スキップ接続とも)とは、ニューラルネットワークのある層への入力をその層の出力に直接加算(ショートカット)する接続パターンです。Heらが2016年に発表したResNet(Deep Residual Network)で提案され、それまで困難だった100層を超える深いネットワークの安定した学習を実現しました。
数式で表すとY = F(X) + X で、F(X)が層による変換、Xが入力の直接加算(残差)です。層が恒等写像(F(X) = 0)を学習すれば入力がそのまま通過するため、深いネットワークでも勾配が消失せずに逆伝播できます。「ゼロから学習するより変化量(残差)を学習するほうが容易」という直感が名前の由来です。
TransformerもResNetと同様に残差接続を各サブ層(アテンション層・フィードフォワード層)の後に採用しています。「Add & Norm」と呼ばれるパターンで、サブ層の出力に入力を加算してからLayerNormを適用します。この構造がなければ、100層超のLLMの安定した事前学習は困難です。
実装上の注意として、残差接続を機能させるには入力と出力の次元が一致する必要があります。次元が異なる場合は射影行列(1×1畳み込みや線形層)を使って次元を合わせます。
参考情報・出典
- ▸Deep Residual Learning for Image Recognition— arXiv / He et al. (2016)(参照日: 2026-02-26)
- ▸Residual connection – Wikipedia— Wikipedia(参照日: 2026-02-26)