プロンプト圧縮とは？わかりやすく解説

一文定義

プロンプト圧縮とは、長いプロンプトから重要な情報を保ちつつトークン数を削減してAPIコストと遅延を改善する技術です。LLMLinguaが代表的なツールで、RAGの検索結果などの冗長なテキストを圧縮します。

詳細解説

プロンプト圧縮（Prompt Compression）とは、LLMに送信するプロンプトの品質を保ちながらトークン数を削減する技術です。RAGで取得した大量のコンテキスト・長い会話履歴・冗長な文書を圧縮することで、APIコストの削減・処理速度の向上・context-windowの有効活用を実現します。

プロンプト圧縮が重要な理由は、RAGシステムでは検索結果として大量のテキストをLLMに渡すことが多く、これがAPIコスト増大とレイテンシ上昇の主要因となるためです。特に長コンテキストモデルでも、無駄なトークンはコストに直結します。Microsoft Researchが2023年に発表したLLMLinguaは、小型LLMを使ってプロンプト内のトークン重要度を評価し、重要度の低いトークンを選択的に除去することで最大20倍の圧縮を実現しました。

主な手法として、LLMLingua（重要度ベースのトークン削除）、LLMLingua-2（タスク非依存の高速圧縮）、Selective Context（文のperplexityを使った重要文選択）、Gist Tokens（圧縮表現を学習するfine-tuning手法）などがあります。圧縮率と情報損失のトレードオフが課題であり、タスクや文書の種類によって最適な手法が異なります。prompt-cachingと組み合わせることでさらなるコスト最適化が可能です。

参考情報・出典

▸
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models— arXiv / Jiang et al. / Microsoft (2023)（参照日: 2026-02-26）
▸
LLMLingua - GitHub— Microsoft（参照日: 2026-02-26）

プロンプト圧縮

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する