一文定義
ベンチマークとは、AIモデルの性能を測定・比較するための標準化されたテストセットです。MMLUやHumanEvalなど様々なベンチマークが存在し、モデル選定の指標として活用されます。
詳細解説
ベンチマーク(Benchmark)とは、AIモデルの能力を客観的に測定・比較するために設計された標準化されたテストセットです。同じ問題セットに対する正解率やスコアを比較することで、異なるモデルの相対的な性能を評価できます。
代表的なベンチマークとして、MMLUは高校・大学レベルの知識を57分野で問う多肢選択問題、HumanEvalはコード生成能力を評価するプログラミング問題、GSM8Kは小学校レベルの算数推論問題、HellaSwagは常識推論、MTBenchはチャット能力の多次元評価などがあります。また、日本語LLMの評価には「JP-LMEH」「JMMLU」などが使われます。
ベンチマークを活用する際の注意点として、「ベンチマーク汚染(Contamination)」があります。LLMの学習データにベンチマークの問題が含まれていると、実際の能力より高いスコアが出てしまうため、新しいベンチマークの開発が継続されています。また、特定のベンチマークで高スコアを出すよう最適化されたモデルが、実際の業務タスクで高い性能を発揮するとは限らない点も重要です。モデル選定時は複数のベンチマークと実業務でのテストを組み合わせることが推奨されます。
参考情報・出典
- ▸Papers With Code - Benchmarks— Papers With Code(参照日: 2026-02-25)
- ▸Measuring Massive Multitask Language Understanding (MMLU)— arXiv / Hendrycks et al.(参照日: 2026-02-25)