一文定義
AIモデルの能力を標準的なタスクで測定・比較する評価指標セット。MMLU・HumanEval・HELM・MT-Benchが代表例。
詳細解説
AIベンチマーク(AI Benchmark)とは、AIモデルの性能・能力・安全性を客観的に測定・比較するために設計された標準的な評価タスクセットとその評価フレームワークです。モデル選定・研究進捗の測定・開発目標設定において重要な役割を担います。
主要なLLMベンチマークとして、(1)MMLU(Massive Multitask Language Understanding):57分野の多肢選択問題で知識・推論を評価、(2)HumanEval:コード生成能力をプログラミング問題で評価、(3)HELM(Holistic Evaluation of Language Models):精度・校正・ロバスト性・公平性等を多角的評価、(4)MT-Bench:マルチターン対話能力をLLM-as-Judgeで評価、(5)LMSYS Chatbot Arena:人間の嗜好によるEloレーティングがあります。
日本語能力の評価には、JMT-Bench・JGLUE・JSQuADなど日本語特化ベンチマークが使われています。
ベンチマークの限界として、特定のベンチマークに過学習した「ベンチマーク汚染(Benchmark Contamination)」が問題となっており、学習データとの重複を除いた評価や、継続的に更新される動的ベンチマークへの移行が進んでいます。ビジネス導入時は汎用ベンチマークと自社ユースケースに特化した評価の両方を実施することが推奨されます。
参考情報・出典
- ▸MMLU: Measuring Massive Multitask Language Understanding— arXiv(参照日: 2026-02-26)
- ▸HELM – Holistic Evaluation of Language Models— Stanford CRFM(参照日: 2026-02-26)