評価

LLM-as-a-Judge

エルエルエムアズジャッジ

一文定義

LLM-as-a-Judgeとは、LLM自身を評価者として使い、他のLLMの出力品質を自動採点する評価手法です。人間評価のスケールアップを実現し、RAGシステムやチャットボットの品質監視に広く活用されています。

詳細解説

LLM-as-a-Judge(LLMを審判として使う)とは、人間の評価者の代わりに強力なLLM(主にGPT-4・Claude等)を使って、別のLLMやAIシステムの出力を自動評価する手法です。Zhengらが2023年に「MT-BenchとChatbot Arenaを使ったLLMの評価」論文で体系化し、LLMの評価フレームワークとして急速に普及しました。

LLM-as-a-Judgeが重要な理由は、LLMの出力評価の難しさにあります。翻訳のBLEUスコアや分類のAccuracyと違い、「この回答は役に立つか」「この要約は正確か」という品質は自動計算が難しく、従来は人間評価が必要でした。LLMを審判として使うことで、人間と高い相関を持つ品質評価を大規模・低コストで自動化できます。

評価方式として、単一回答スコアリング(1〜10点スケール)、ペアワイズ比較(A vs Bどちらが良いか)、参照ベース評価(正解と比較)の3種類があります。課題として、評価LLM自身のバイアス(長い回答や自社モデルを好む傾向)・ポジションバイアス(最初の回答を好む傾向)があり、複数の評価LLMを使ったり順序をランダム化したりすることで対策します。RAGEvalsやRagas等のフレームワークがLLM-as-a-Judgeを組み込んだRAG評価を自動化しています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る