一文定義
LLMの評価に使うテストデータが事前学習データに含まれてしまう問題。評価結果が実力よりも過大評価され、ベンチマークの信頼性を損なう深刻な課題。
詳細解説
ベンチマーク汚染(Benchmark Leakage / Data Contamination)とは、LLMの性能評価に使用されるテストデータ(ベンチマークの問題と正解)が、モデルの事前学習データに意図せず含まれてしまう問題です。汚染されたベンチマークでの評価結果はモデルの真の汎化能力を反映せず、「丸暗記」による過大評価となるため、LLM間の公正な性能比較を困難にする深刻な課題として認識されています。
発生メカニズムとして、(1)Webスクレイピングによる混入:LLMの事前学習データはWebから大量に収集されるため、オンラインで公開されているベンチマークデータセット(MMLU・GSM8K・HumanEval等)が学習データに混入、(2)意図的な混入:リーダーボード上位を狙うために、意図的にベンチマークデータを学習データに含めるケース、(3)間接的汚染:ベンチマークの問題を解説するブログ記事・教科書・フォーラム投稿がWebクロールで収集され、問題と正解のペアが学習データに含まれるケースがあります。
検出方法として、(1)n-gram重複分析:学習データとテストデータ間で長いn-gramの一致を検出、(2)摂動テスト:テスト問題を言い換えたり数値を変更したりして、モデルの性能が大幅に低下するかを確認。低下が大きい場合は丸暗記の可能性が高い、(3)メンバーシップ推論:特定のデータがモデルの学習データに含まれていたかどうかを統計的に推論する手法があります。
対策として、(1)動的ベンチマーク:定期的に新しい問題を生成し、過去の問題を廃止する動的な評価システム(LiveBench・Chatbot Arena等)、(2)プライベートテストセット:テストデータを非公開にし、APIを通じてのみ評価を許可、(3)汚染レポートの義務化:モデル公開時に学習データとベンチマークの重複分析結果を報告、(4)人間評価の併用:自動ベンチマークだけでなく、人間による盲検評価を組み合わせることが推奨されています。
参考情報・出典
- ▸Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks— arXiv / Jacovi et al.(参照日: 2026-02-26)
- ▸Investigating Data Contamination in Modern Benchmarks for Large Language Models— arXiv / Deng et al.(参照日: 2026-02-26)