一文定義
LLM-as-a-Judgeとは、LLM自身を評価者として使い、他のLLMの出力品質を自動採点する評価手法です。人間評価のスケールアップを実現し、RAGシステムやチャットボットの品質監視に広く活用されています。
詳細解説
LLM-as-a-Judge(LLMを審判として使う)とは、人間の評価者の代わりに強力なLLM(主にGPT-4・Claude等)を使って、別のLLMやAIシステムの出力を自動評価する手法です。Zhengらが2023年に「MT-BenchとChatbot Arenaを使ったLLMの評価」論文で体系化し、LLMの評価フレームワークとして急速に普及しました。
LLM-as-a-Judgeが重要な理由は、LLMの出力評価の難しさにあります。翻訳のBLEUスコアや分類のAccuracyと違い、「この回答は役に立つか」「この要約は正確か」という品質は自動計算が難しく、従来は人間評価が必要でした。LLMを審判として使うことで、人間と高い相関を持つ品質評価を大規模・低コストで自動化できます。
評価方式として、単一回答スコアリング(1〜10点スケール)、ペアワイズ比較(A vs Bどちらが良いか)、参照ベース評価(正解と比較)の3種類があります。課題として、評価LLM自身のバイアス(長い回答や自社モデルを好む傾向)・ポジションバイアス(最初の回答を好む傾向)があり、複数の評価LLMを使ったり順序をランダム化したりすることで対策します。RAGEvalsやRagas等のフレームワークがLLM-as-a-Judgeを組み込んだRAG評価を自動化しています。
参考情報・出典
- ▸Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena— arXiv / Zheng et al. (2023)(参照日: 2026-02-26)
- ▸LLM-as-a-judge - Wikipedia— Wikipedia(参照日: 2026-02-26)