一文定義
アテンションシンクとは、LLMのアテンション機構で最初のトークンが異常に高いアテンション重みを受ける現象で、StreamingLLMの研究で発見され、無限長文脈での推論を可能にするKVキャッシュ管理に活用されています。
詳細解説
アテンションシンク(Attention Sink)とは、LLMのアテンション機構において、シーケンスの先頭トークン(多くは「<bos>」等の特殊トークン)が内容に関係なく極端に高いアテンション重みを集める現象です。
Xiao et al.(2023年)の「StreamingLLM」研究で発見・命名されました。通常、KVキャッシュはウィンドウサイズを超えると古いトークンを捨てますが、先頭のアテンションシンクトークンを捨てると性能が急落します。これを保持することで、固定サイズのKVキャッシュで事実上無限長のストリーミング推論が可能になります。
なぜこの現象が起きるかについては複数の仮説があります: - モデルが「どこにでも注目できる」逃げ場として先頭トークンを使っている - ソフトマックスの正規化制約による副作用 - 学習データのシーケンス境界パターンの影響
**実用上の意義:** - **StreamingLLM**:アテンションシンクを保持しつつスライディングウィンドウでリアルタイム推論 - **長文脈モデルの設計**:先頭トークンの特別扱いがKVキャッシュ効率を左右する - **LLMの解釈可能性研究**:アテンションパターンの内部動作の理解
現在はRoPEスケーリングやALiBiなどの位置エンコーディング改良と組み合わせて、より効率的な長文脈処理が追求されています。
参考情報・出典
- ▸Efficient Streaming Language Models with Attention Sinks— arXiv / Xiao et al.(参照日: 2026-02-26)