一文定義
パープレキシティ(Perplexity)とは、言語モデルがテキストをどれだけうまく予測できるかを測る評価指標です。PPLと略され、値が低いほど性能が高いことを示します。モデルの事前学習品質評価の基本指標です。
詳細解説
パープレキシティ(Perplexity、PPL)とは、言語モデルがテストデータをどれだけ「驚き」なく予測できるかを表す評価指標です。数学的には、テストデータの各トークンに対するモデルの予測確率の幾何平均の逆数として定義されます。直感的には「このモデルは次のトークンを予測する際、平均して何択の中から選んでいるか」を意味し、値が低いほど予測精度が高いことを示します。
パープレキシティが重要な理由は、外部タスクを必要とせず言語モデル自体の事前学習品質をシンプルに定量評価できるためです。モデルのアーキテクチャ比較・学習データの品質評価・量子化による性能劣化の測定などに広く使われます。WikitextやPenn Treebankなどの標準データセット上でのPPLがモデル比較のベースラインとなります。
PPLの解釈には注意が必要です。同じPPLでも、測定するデータセットやトークナイザーが異なれば値が変わるため、異なるモデル間の直接比較が難しい場合があります。また、PPLが低くても実際の応用タスク(翻訳・要約・QA等)での性能が高いとは限らず、benchmarkやevaluation-metricsとの組み合わせで多角的に評価することが重要です。量子化(quantization)によるPPL劣化の測定はLLMの軽量化品質管理の標準的手法です。
参考情報・出典
- ▸Perplexity - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸Speech and Language Processing (3rd ed.) - Jurafsky & Martin— Stanford University(参照日: 2026-02-26)