基礎概念

GQA(グループクエリアテンション)

ジーキューエー(グループクエリアテンション)

一文定義

GQAとは、複数のクエリヘッドが少数のキー・バリューヘッドを共有することでKVキャッシュを削減するアテンション効率化手法で、Llama 2・Gemma・Mistralが採用し推論効率を大幅に向上させます。

詳細解説

GQA(Grouped Query Attention:グループクエリアテンション)とは、トランスフォーマーのマルチヘッドアテンション(MHA)を効率化する手法です。従来のMHAではクエリ・キー・バリュー各ヘッドが独立しているのに対し、GQAでは複数のクエリヘッドが少数のキー・バリューヘッドを共有するグループ構造を採用します。

MHAとMQA(Multi Query Attention)の中間的なアプローチです。MQAはすべてのクエリヘッドが単一のK・Vヘッドを共有するため高速ですが品質が低下する傾向があります。GQAはグループ数を調整することでこのトレードオフを柔軟に制御できます。

実用上の最大のメリットはKVキャッシュの削減です。推論時にバッチサイズやシーケンス長が増大するほどKVキャッシュのメモリ消費が膨張しますが、GQAによりこれをH/G倍(Hはヘッド数、Gはグループ数)削減できます。Llama 2 70B・Gemma・Mistral 7B・Qwen2などの主要モデルが採用しており、同じハードウェアでより長いコンテキストや大きなバッチを処理できるようになります。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る