実装

RAGAS

ラガス

一文定義

RAGシステムの品質を自動評価するオープンソースフレームワーク。Faithfulness・Answer Relevancy・Context Precision等の指標で評価。

詳細解説

RAGAS(Retrieval Augmented Generation Assessment)とは、RAG(検索拡張生成)パイプラインの品質を定量的に評価するためのオープンソースPythonフレームワークです。人手による評価の代わりにLLMを審査者として使う「LLM-as-judge」アプローチを採用し、参照回答なしでもRAGシステムの品質を自動測定できます。

RAGASの主要評価指標として、(1)Faithfulness(忠実性):生成された回答が検索されたコンテキスト(ソース文書)に基づいているかを評価。コンテキストに含まれない情報を回答に含める「ハルシネーション」を検出する指標、(2)Answer Relevancy(回答関連性):生成された回答が質問に対して適切に答えているかを評価。質問から逸れた回答や不完全な回答を検出、(3)Context Precision(コンテキスト精度):検索されたコンテキストの中に実際に役立つ情報がどれだけ含まれているかを評価。不要なチャンクが多い場合に低下、(4)Context Recall(コンテキスト再現性):正解に必要な情報がすべて検索されているかを評価するために参照回答が必要な指標、(5)Context Entity Recall(エンティティ再現性):回答に必要な固有表現が検索コンテキストに含まれているかを評価があります。

使用方法として、質問(question)・生成回答(answer)・検索コンテキスト(contexts)・参照回答(ground_truth、オプション)の4要素をデータセットとして提供し、評価関数を実行するとメトリクスが0〜1のスコアで返されます。LangChain・LlamaIndex・Haystack等のフレームワークとのネイティブ統合があり、既存RAGパイプラインへの組み込みが容易です。

TestSet生成機能として、RAGAS v0.2以降では既存のドキュメントから自動的に多様な質問タイプ(単純・推論・マルチホップ等)のテストセットを生成する機能も提供しており、評価データ収集コストを大幅に削減できます。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る