一文定義
BLEUとROUGEとは、AIが生成したテキストの品質を自動評価するための代表的な指標です。参照テキストとの一致度を数値化し、翻訳・要約・対話システムの性能比較に使われます。
詳細解説
BLEU(Bilingual Evaluation Understudy)とROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、AIが生成したテキストを人手の参照テキストと比較して品質を数値評価するための指標です。
BLEUは主に機械翻訳の評価に使われ、生成テキストと参照テキストの間でn-gramの一致率(精度)を計算します。ROUGEは主に要約の評価に使われ、参照テキストのn-gramが生成テキストにどれだけ含まれているか(再現率)を重視します。
なぜこれらが重要かというと、人手評価は高コスト・低スケーラビリティなため、大量のモデルや設定を素早く比較するために自動評価指標が不可欠だからです。一方で、BLEU/ROUGEは「流暢さ・意味の正確さ・情報の有無」を十分に捉えられないという限界もあり、近年はLLMを審判として使う「LLM-as-a-Judge」評価も広まっています。
参考情報・出典
- ▸BLEU: a Method for Automatic Evaluation of Machine Translation— ACL Anthology(参照日: 2026-02-25)
- ▸ROUGE: A Package for Automatic Evaluation of Summaries— ACL Anthology(参照日: 2026-02-25)
最終更新: 2026-02-25← 用語集一覧へ