一文定義
GQAとは、複数のクエリヘッドが少数のキー・バリューヘッドを共有することでKVキャッシュを削減するアテンション効率化手法で、Llama 2・Gemma・Mistralが採用し推論効率を大幅に向上させます。
詳細解説
GQA(Grouped Query Attention:グループクエリアテンション)とは、トランスフォーマーのマルチヘッドアテンション(MHA)を効率化する手法です。従来のMHAではクエリ・キー・バリュー各ヘッドが独立しているのに対し、GQAでは複数のクエリヘッドが少数のキー・バリューヘッドを共有するグループ構造を採用します。
MHAとMQA(Multi Query Attention)の中間的なアプローチです。MQAはすべてのクエリヘッドが単一のK・Vヘッドを共有するため高速ですが品質が低下する傾向があります。GQAはグループ数を調整することでこのトレードオフを柔軟に制御できます。
実用上の最大のメリットはKVキャッシュの削減です。推論時にバッチサイズやシーケンス長が増大するほどKVキャッシュのメモリ消費が膨張しますが、GQAによりこれをH/G倍(Hはヘッド数、Gはグループ数)削減できます。Llama 2 70B・Gemma・Mistral 7B・Qwen2などの主要モデルが採用しており、同じハードウェアでより長いコンテキストや大きなバッチを処理できるようになります。
参考情報・出典
- ▸GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints— arXiv / Google(参照日: 2026-02-26)
- ▸Llama 2: Open Foundation and Fine-Tuned Chat Models— arXiv / Meta(参照日: 2026-02-26)