一文定義
クロスアテンションとは、エンコーダーとデコーダー間でクエリをデコーダー側、キー・バリューをエンコーダー側から取る注意機構で、翻訳・画像キャプション・マルチモーダルモデルにおける異なるモダリティ間の情報統合に使われます。
詳細解説
クロスアテンション(Cross-Attention)とは、トランスフォーマーアーキテクチャにおけるアテンション機構の一形態で、クエリ(Q)をデコーダー側から、キー(K)とバリュー(V)をエンコーダー側から取得することで、2つの異なる系列間の関係を計算します。
セルフアテンションが同一系列内のトークン間の関係を計算するのに対し、クロスアテンションは異なる源泉の情報を統合する役割を担います。たとえば機械翻訳では、デコーダーが英語のトークンを生成する際、クロスアテンションを通じてエンコーダーが処理した日本語の全トークンを参照します。これにより文の位置に依存しない柔軟な対応関係を学習できます。
マルチモーダルモデルにおいても重要な役割を果たします。画像キャプション生成では視覚特徴量とテキスト間のクロスアテンション、テキストから画像を生成する拡散モデルでは、テキストエンコーダーの出力をクロスアテンションでUNetに注入することで条件付き生成を実現しています。
Stable DiffusionやDALL-Eのようなテキスト条件付き画像生成モデルは、クロスアテンションなしには成立しません。マルチモーダルAIの理解に不可欠な基礎概念です。
参考情報・出典
- ▸Attention Is All You Need— arXiv / Vaswani et al.(参照日: 2026-02-26)
- ▸Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau Attention)— arXiv / Bahdanau et al.(参照日: 2026-02-26)