評価

AIエージェントベンチマーク

AIエージェントベンチマーク

一文定義

AIエージェントベンチマークとは、AIエージェントの能力を測定するための標準テスト群で、SWE-bench(コーディング)・WebArena(Web操作)・GAIA(汎用タスク)等がありエージェントAIの進歩を追跡します。

詳細解説

AIエージェントベンチマーク(AI Agent Benchmark)とは、AIエージェントが実際のタスクをどの程度こなせるかを定量的に評価するための標準的な評価セットです。単純な質問応答能力を測る従来のLLMベンチマークと異なり、複数ステップにわたる計画・実行・ツール使用能力を評価します。

代表的なベンチマーク: - **SWE-bench**:GitHubの実際のissueを解決するコーディングエージェント評価。2024年に登場し、主要モデルの実用的なコード修正能力の比較に広く使われる - **WebArena**:Webブラウザ操作タスク(ショッピング・フォーラム投稿等)の評価環境 - **GAIA**:検索・計算・ファイル操作等を組み合わせた汎用AIアシスタント能力の評価 - **OSWorld**:OS操作タスクを通じてデスクトップエージェントを評価 - **AgentBench**:コード・ゲーム・DB操作等多様な環境での総合評価

これらのベンチマークへのスコアがLLMプロバイダーの競争指標となっており、エージェントAIの実用化進捗を追跡する上で不可欠な参照点になっています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る