一文定義
FlashAttentionとは、TransformerのAttention計算をGPUメモリ階層を考慮して最適化し、速度向上とメモリ削減を実現するアルゴリズムです。ほぼすべての現代LLMの学習・推論に採用されている重要な基盤技術です。
詳細解説
FlashAttention(フラッシュアテンション)とは、Tri Daoらが2022年に発表した、Transformerのself-attention計算を大幅に高速化・省メモリ化するアルゴリズムです。数学的な計算結果は標準的なAttentionと完全に同一ですが、GPUのメモリ階層(高速なSRAM:共有メモリ vs 低速なHBM:VRAMの主記憶)を最大限に活用することで、速度2〜4倍・メモリ使用量5〜20倍削減を実現しました。
FlashAttentionが重要な理由は、標準的なAttentionはシーケンス長の2乗に比例するメモリ・計算量が必要であり、長いコンテキスト(long-context)の処理がvramの壁で実質的に不可能でした。FlashAttentionによってこの制約が大幅に緩和され、長コンテキストLLMの実現・より大きなバッチサイズでの学習効率化が可能になりました。
2023年のFlashAttention-2ではさらにGPU並列化効率が改善されました。GPT-4・Llama 2以降のほぼすべての主要LLMがFlashAttentionを標準採用しており、現代のLLM学習・推論インフラの基盤となっています。PyTorch 2.0以降では「torch.nn.functional.scaled_dot_product_attention」としてFlashAttentionが標準統合されています。attention-mechanismの計算効率化という観点でTransformerの発展に大きく貢献しました。
参考情報・出典
- ▸FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness— arXiv / Dao et al. (2022)(参照日: 2026-02-26)
- ▸FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning— arXiv / Dao (2023)(参照日: 2026-02-26)