一文定義
コンテキストウィンドウ拡張とは、LLMのコンテキスト長を学習後に拡張する技術群で、RoPEスケーリング・ALiBi・YaRN等の手法により元の訓練長を超えた長文書処理を可能にします。
詳細解説
コンテキストウィンドウ拡張(Context Window Extension)とは、LLMが事前学習で対応できるトークン数を超えて、より長い入力を処理できるように後から拡張する技術の総称です。
LLMは通常、事前学習時の最大コンテキスト長を超えると性能が急激に低下します。これを解決するための主要な手法:
- **RoPE(Rotary Position Embedding)スケーリング**:回転位置埋め込みのベースを変更することで、訓練時より長い位置情報を処理可能にする。LlamaやMistralで広く採用 - **YaRN(Yet another RoPE extensioN)**:RoPEの異なる周波数成分に応じて適応的にスケールを調整する手法。性能劣化を最小化 - **ALiBi(Attention with Linear Biases)**:位置埋め込みの代わりに線形バイアスを使用し、学習時より長い系列への外挿を容易にする - **LongLoRA**:LoRAと疎なアテンションを組み合わせ、効率的に長コンテキストに対応
Claude 3.5(200K)・Gemini 1.5(1M)・GPT-4 Turbo(128K)など、主要モデルのコンテキスト長競争においてこれらの技術が重要な役割を果たしています。
参考情報・出典
- ▸YaRN: Efficient Context Window Extension of Large Language Models— arXiv / Peng et al.(参照日: 2026-02-26)
- ▸LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models— arXiv / Chen et al.(参照日: 2026-02-26)