実装

TruLens

トゥルーレンズ

一文定義

LLMアプリの評価・フィードバック収集・監視を行うオープンソースツール。RAGトライアドやカスタム評価指標でLLM出力の品質を自動計測。

詳細解説

TruLensとは、Truera社が開発しオープンソースとして公開しているLLMアプリケーション評価・監視フレームワークです。LLMベースのアプリケーション(RAGシステム・エージェント・チャットボット等)の出力品質をフィードバック関数(Feedback Functions)で自動評価し、結果をダッシュボードで可視化・分析できます。

中核概念の「RAGトライアド(RAG Triad)」として、TruLensはRAGシステム評価の3つの基本指標を「コンテキスト関連性(Context Relevance)」「根拠性(Groundedness)」「回答関連性(Answer Relevance)」として定義しています。(1)コンテキスト関連性:検索されたコンテキストが質問に対して関連しているか、(2)根拠性(Groundedness / Faithfulness):最終回答が検索コンテキストに基づいているか(ハルシネーション検出)、(3)回答関連性:最終回答が質問に適切に答えているかを評価します。

フィードバック関数(Feedback Functions)として、TruLensでは評価ロジックを「フィードバック関数」として定義します。OpenAI・Hugging Faceの分類モデル・カスタム関数を組み合わせて、(1)言語品質(文法・流暢さ・コヒーレンス)、(2)安全性(有害コンテンツ・機密情報検出)、(3)ドメイン固有品質(回答の完全性・正確性)等を計測できます。

記録・ダッシュボードとして、TruLens Eval(評価用SDK)で記録したトレースとフィードバックスコアを、TruLens Leaderboard(比較ダッシュボード)で可視化します。モデル・プロンプト・チャンク戦略等のバリエーションを比較して最適設定を特定するイテレーション管理に役立ちます。RAGASと比較すると、TruLensはより広いLLMアプリカテゴリ(エージェント・チェーン等)の評価に対応している点が特徴です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る