基礎概念

FlashAttention

フラッシュアテンション

一文定義

FlashAttentionとは、TransformerのAttention計算をGPUメモリ階層を考慮して最適化し、速度向上とメモリ削減を実現するアルゴリズムです。ほぼすべての現代LLMの学習・推論に採用されている重要な基盤技術です。

詳細解説

FlashAttention(フラッシュアテンション)とは、Tri Daoらが2022年に発表した、Transformerのself-attention計算を大幅に高速化・省メモリ化するアルゴリズムです。数学的な計算結果は標準的なAttentionと完全に同一ですが、GPUのメモリ階層(高速なSRAM:共有メモリ vs 低速なHBM:VRAMの主記憶)を最大限に活用することで、速度2〜4倍・メモリ使用量5〜20倍削減を実現しました。

FlashAttentionが重要な理由は、標準的なAttentionはシーケンス長の2乗に比例するメモリ・計算量が必要であり、長いコンテキスト(long-context)の処理がvramの壁で実質的に不可能でした。FlashAttentionによってこの制約が大幅に緩和され、長コンテキストLLMの実現・より大きなバッチサイズでの学習効率化が可能になりました。

2023年のFlashAttention-2ではさらにGPU並列化効率が改善されました。GPT-4・Llama 2以降のほぼすべての主要LLMがFlashAttentionを標準採用しており、現代のLLM学習・推論インフラの基盤となっています。PyTorch 2.0以降では「torch.nn.functional.scaled_dot_product_attention」としてFlashAttentionが標準統合されています。attention-mechanismの計算効率化という観点でTransformerの発展に大きく貢献しました。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る