クロスアテンションとは？わかりやすく解説

一文定義

クロスアテンションとは、エンコーダーとデコーダー間でクエリをデコーダー側、キー・バリューをエンコーダー側から取る注意機構で、翻訳・画像キャプション・マルチモーダルモデルにおける異なるモダリティ間の情報統合に使われます。

詳細解説

クロスアテンション（Cross-Attention）とは、トランスフォーマーアーキテクチャにおけるアテンション機構の一形態で、クエリ（Q）をデコーダー側から、キー（K）とバリュー（V）をエンコーダー側から取得することで、2つの異なる系列間の関係を計算します。

セルフアテンションが同一系列内のトークン間の関係を計算するのに対し、クロスアテンションは異なる源泉の情報を統合する役割を担います。たとえば機械翻訳では、デコーダーが英語のトークンを生成する際、クロスアテンションを通じてエンコーダーが処理した日本語の全トークンを参照します。これにより文の位置に依存しない柔軟な対応関係を学習できます。

マルチモーダルモデルにおいても重要な役割を果たします。画像キャプション生成では視覚特徴量とテキスト間のクロスアテンション、テキストから画像を生成する拡散モデルでは、テキストエンコーダーの出力をクロスアテンションでUNetに注入することで条件付き生成を実現しています。

あなたが使うべきAIを、30秒で診断します｜LINE登録（無料）

LINEに登録して30秒の診断に答えるだけで、ChatGPTやGeminiだけでなく、数十種類の最新AIの中からあなたに最適なAIツール3選がわかります。さらに無料の攻略本もすぐに届きます。

LINEで無料AI診断をはじめる

＼登録30秒・匿名OK・勧誘なし／

Stable DiffusionやDALL-Eのようなテキスト条件付き画像生成モデルは、クロスアテンションなしには成立しません。マルチモーダルAIの理解に不可欠な基礎概念です。

クロスアテンション

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する