一文定義
スライディングウィンドウアテンションとは、各トークンが近隣の固定ウィンドウ内のトークンのみに注意を向けるアテンション機構で、Mistral 7Bで採用され長文を効率的に処理できます。
詳細解説
スライディングウィンドウアテンション(Sliding Window Attention:SWA)とは、各トークンが直近のW個のトークン(ウィンドウ)にのみアテンション計算を行うアテンション機構です。従来の全文脈への完全アテンションはシーケンス長の2乗に比例してメモリと計算コストが増大しますが、SWAではウィンドウサイズWを固定することでO(n·W)の線形コストに抑えられます。
LongformerやBigBirdでも採用されましたが、LLM実装での注目はMistral 7Bによる採用です。Mistralはウィンドウサイズ4096のSWAと、遠距離の重要トークンを保持するローリングバッファKVキャッシュを組み合わせることで、より長いシーケンスを実用的なコストで処理できます。
SWAは「局所的な文脈が最も重要」という仮定に基づいており、近隣トークンとの依存関係が強い多くの自然言語タスクでは完全アテンションに近い性能を維持します。一方で、文書の冒頭と末尾の情報を同時に参照する必要があるタスクでは制約となる場合があります。モデルの設計において、アテンションスパースパターンの選択はコスト・性能トレードオフの重要な決定要素です。
参考情報・出典
- ▸Longformer: The Long-Document Transformer— arXiv / Allen AI(参照日: 2026-02-26)
- ▸Mistral 7B— arXiv / Mistral AI(参照日: 2026-02-26)