FlashAttentionとは？わかりやすく解説

一文定義

FlashAttentionとは、TransformerのAttention計算をGPUメモリ階層を考慮して最適化し、速度向上とメモリ削減を実現するアルゴリズムです。ほぼすべての現代LLMの学習・推論に採用されている重要な基盤技術です。

詳細解説

FlashAttention（フラッシュアテンション）とは、Tri Daoらが2022年に発表した、Transformerのself-attention計算を大幅に高速化・省メモリ化するアルゴリズムです。数学的な計算結果は標準的なAttentionと完全に同一ですが、GPUのメモリ階層（高速なSRAM：共有メモリ vs 低速なHBM：VRAMの主記憶）を最大限に活用することで、速度2〜4倍・メモリ使用量5〜20倍削減を実現しました。

FlashAttentionが重要な理由は、標準的なAttentionはシーケンス長の2乗に比例するメモリ・計算量が必要であり、長いコンテキスト（long-context）の処理がvramの壁で実質的に不可能でした。FlashAttentionによってこの制約が大幅に緩和され、長コンテキストLLMの実現・より大きなバッチサイズでの学習効率化が可能になりました。

2023年のFlashAttention-2ではさらにGPU並列化効率が改善されました。GPT-4・Llama 2以降のほぼすべての主要LLMがFlashAttentionを標準採用しており、現代のLLM学習・推論インフラの基盤となっています。PyTorch 2.0以降では「torch.nn.functional.scaled_dot_product_attention」としてFlashAttentionが標準統合されています。attention-mechanismの計算効率化という観点でTransformerの発展に大きく貢献しました。

参考情報・出典

▸
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness— arXiv / Dao et al. (2022)（参照日: 2026-02-26）
▸
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning— arXiv / Dao (2023)（参照日: 2026-02-26）

FlashAttention

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する