一文定義
LLMの出力品質を精度・一貫性・有害性・事実性等の観点で体系的に測定するプロセス。自動評価と人間評価を組み合わせる。
詳細解説
LLM評価(LLM Evaluation)とは、大規模言語モデルが生成するテキストの品質・安全性・有用性を多角的な指標で測定し、モデルの適切な選定・改善・モニタリングに役立てるプロセスです。LLMの確率的な挙動とオープンエンドな出力の特性から、従来の精度スコアのみでは評価が不十分であり、多次元的な評価フレームワークが必要とされます。
評価の主要観点として、(1)タスク精度(回答の正確性・F1スコア等)、(2)忠実性(取得文書への根拠づけ度)、(3)有害性(ヘイトスピーチ・不適切コンテンツの生成率)、(4)一貫性(同じ質問への回答の安定性)、(5)流暢性・可読性、(6)レイテンシ・コスト効率があります。
評価手法の分類として、(1)自動評価:BLEU・ROUGE等の参照ベース指標、埋め込みベースの意味類似度、(2)LLM-as-Judge:別のLLM(GPT-4oなど)が採点者として機能するMT-Bench方式、(3)人間評価:SBSテスト(Side-by-Side比較)・クラウドソーシング・専門家評価があります。
実務では「評価データセットの構築」が最大の課題です。本番ログから収集した実際のユーザークエリに基づくゴールデンセットを作成し、継続的にモデルの改善効果を測定するCI/CDライクな評価パイプラインの整備が推奨されます。
参考情報・出典
- ▸Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena— arXiv / LMSYS(参照日: 2026-02-26)
- ▸HELM: Holistic Evaluation of Language Models— Stanford CRFM(参照日: 2026-02-26)