実装

プロンプト圧縮

プロンプトあっしゅく

一文定義

プロンプト圧縮とは、長いプロンプトから重要な情報を保ちつつトークン数を削減してAPIコストと遅延を改善する技術です。LLMLinguaが代表的なツールで、RAGの検索結果などの冗長なテキストを圧縮します。

詳細解説

プロンプト圧縮(Prompt Compression)とは、LLMに送信するプロンプトの品質を保ちながらトークン数を削減する技術です。RAGで取得した大量のコンテキスト・長い会話履歴・冗長な文書を圧縮することで、APIコストの削減・処理速度の向上・context-windowの有効活用を実現します。

プロンプト圧縮が重要な理由は、RAGシステムでは検索結果として大量のテキストをLLMに渡すことが多く、これがAPIコスト増大とレイテンシ上昇の主要因となるためです。特に長コンテキストモデルでも、無駄なトークンはコストに直結します。Microsoft Researchが2023年に発表したLLMLinguaは、小型LLMを使ってプロンプト内のトークン重要度を評価し、重要度の低いトークンを選択的に除去することで最大20倍の圧縮を実現しました。

主な手法として、LLMLingua(重要度ベースのトークン削除)、LLMLingua-2(タスク非依存の高速圧縮)、Selective Context(文のperplexityを使った重要文選択)、Gist Tokens(圧縮表現を学習するfine-tuning手法)などがあります。圧縮率と情報損失のトレードオフが課題であり、タスクや文書の種類によって最適な手法が異なります。prompt-cachingと組み合わせることでさらなるコスト最適化が可能です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る