一文定義
異なる表現空間で並列にアテンションを計算することで多様な依存関係を同時に捉えるTransformerの中核機構。
詳細解説
マルチヘッドアテンション(Multi-Head Attention)とは、Transformerアーキテクチャの中核をなす機構で、入力を複数のサブ空間(ヘッド)に射影してそれぞれ独立にアテンションを計算し、その結果を結合する仕組みです。Vaswaniらの「Attention Is All You Need」(2017年)で提案され、現代の大規模言語モデルの基盤となっています。
単一のアテンション計算だけでは捉えにくい多様な依存関係(例:文法的な主語-動詞関係・意味的な共参照・長距離の依存関係)を、各ヘッドが異なる視点で分担して学習できる点が強みです。例えば8ヘッドのTransformerでは、あるヘッドは構文的な関係を、別のヘッドは意味的な類似性を担当するように特化します。
具体的な計算として、入力をH個のヘッドに分割(各ヘッドは次元数d/Hで計算)し、各ヘッドでQuery・Key・Valueの3つの行列による注意計算(Scaled Dot-Product Attention)を実行、最後に全ヘッドの出力を連結して線形変換します。
現代のLLMでは、メモリ効率を改善するためにMulti-Query Attention(MQA)やGrouped Query Attention(GQA)という派生形が採用されています。MistralやLlamaシリーズはGQAを採用しており、KVキャッシュのメモリ消費を大幅に削減しています。
参考情報・出典
- ▸Attention Is All You Need— arXiv / Vaswani et al. (2017)(参照日: 2026-02-26)
- ▸The Illustrated Transformer – Jay Alammar— Jay Alammar(参照日: 2026-02-26)