基礎概念

クロスアテンション

クロスアテンション

一文定義

クロスアテンションとは、エンコーダーとデコーダー間でクエリをデコーダー側、キー・バリューをエンコーダー側から取る注意機構で、翻訳・画像キャプション・マルチモーダルモデルにおける異なるモダリティ間の情報統合に使われます。

詳細解説

クロスアテンション(Cross-Attention)とは、トランスフォーマーアーキテクチャにおけるアテンション機構の一形態で、クエリ(Q)をデコーダー側から、キー(K)とバリュー(V)をエンコーダー側から取得することで、2つの異なる系列間の関係を計算します。

セルフアテンションが同一系列内のトークン間の関係を計算するのに対し、クロスアテンションは異なる源泉の情報を統合する役割を担います。たとえば機械翻訳では、デコーダーが英語のトークンを生成する際、クロスアテンションを通じてエンコーダーが処理した日本語の全トークンを参照します。これにより文の位置に依存しない柔軟な対応関係を学習できます。

マルチモーダルモデルにおいても重要な役割を果たします。画像キャプション生成では視覚特徴量とテキスト間のクロスアテンション、テキストから画像を生成する拡散モデルでは、テキストエンコーダーの出力をクロスアテンションでUNetに注入することで条件付き生成を実現しています。

Stable DiffusionやDALL-Eのようなテキスト条件付き画像生成モデルは、クロスアテンションなしには成立しません。マルチモーダルAIの理解に不可欠な基礎概念です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る