LLM-as-a-Judgeとは？わかりやすく解説

一文定義

LLM-as-a-Judgeとは、LLM自身を評価者として使い、他のLLMの出力品質を自動採点する評価手法です。人間評価のスケールアップを実現し、RAGシステムやチャットボットの品質監視に広く活用されています。

詳細解説

LLM-as-a-Judge（LLMを審判として使う）とは、人間の評価者の代わりに強力なLLM（主にGPT-4・Claude等）を使って、別のLLMやAIシステムの出力を自動評価する手法です。Zhengらが2023年に「MT-BenchとChatbot Arenaを使ったLLMの評価」論文で体系化し、LLMの評価フレームワークとして急速に普及しました。

LLM-as-a-Judgeが重要な理由は、LLMの出力評価の難しさにあります。翻訳のBLEUスコアや分類のAccuracyと違い、「この回答は役に立つか」「この要約は正確か」という品質は自動計算が難しく、従来は人間評価が必要でした。LLMを審判として使うことで、人間と高い相関を持つ品質評価を大規模・低コストで自動化できます。

評価方式として、単一回答スコアリング（1〜10点スケール）、ペアワイズ比較（A vs Bどちらが良いか）、参照ベース評価（正解と比較）の3種類があります。課題として、評価LLM自身のバイアス（長い回答や自社モデルを好む傾向）・ポジションバイアス（最初の回答を好む傾向）があり、複数の評価LLMを使ったり順序をランダム化したりすることで対策します。RAGEvalsやRagas等のフレームワークがLLM-as-a-Judgeを組み込んだRAG評価を自動化しています。

参考情報・出典

▸
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena— arXiv / Zheng et al. (2023)（参照日: 2026-02-26）
▸
LLM-as-a-judge - Wikipedia— Wikipedia（参照日: 2026-02-26）

LLM-as-a-Judge

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する