一文定義
プロンプト圧縮とは、長いプロンプトから重要な情報を保ちつつトークン数を削減してAPIコストと遅延を改善する技術です。LLMLinguaが代表的なツールで、RAGの検索結果などの冗長なテキストを圧縮します。
詳細解説
プロンプト圧縮(Prompt Compression)とは、LLMに送信するプロンプトの品質を保ちながらトークン数を削減する技術です。RAGで取得した大量のコンテキスト・長い会話履歴・冗長な文書を圧縮することで、APIコストの削減・処理速度の向上・context-windowの有効活用を実現します。
プロンプト圧縮が重要な理由は、RAGシステムでは検索結果として大量のテキストをLLMに渡すことが多く、これがAPIコスト増大とレイテンシ上昇の主要因となるためです。特に長コンテキストモデルでも、無駄なトークンはコストに直結します。Microsoft Researchが2023年に発表したLLMLinguaは、小型LLMを使ってプロンプト内のトークン重要度を評価し、重要度の低いトークンを選択的に除去することで最大20倍の圧縮を実現しました。
主な手法として、LLMLingua(重要度ベースのトークン削除)、LLMLingua-2(タスク非依存の高速圧縮)、Selective Context(文のperplexityを使った重要文選択)、Gist Tokens(圧縮表現を学習するfine-tuning手法)などがあります。圧縮率と情報損失のトレードオフが課題であり、タスクや文書の種類によって最適な手法が異なります。prompt-cachingと組み合わせることでさらなるコスト最適化が可能です。
参考情報・出典
- ▸LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models— arXiv / Jiang et al. / Microsoft (2023)(参照日: 2026-02-26)
- ▸LLMLingua - GitHub— Microsoft(参照日: 2026-02-26)