一文定義
LLMの入出力から有害コンテンツ・不適切な表現を検出・除去するシステム。OpenAI Moderation API・Llama Guard等が代表例。コンテンツモデレーションの自動化に使用。
詳細解説
セーフティフィルター(Safety Filter)とは、LLMの入力(ユーザープロンプト)および出力(モデル応答)を検査し、有害・不適切・危険なコンテンツを検出・ブロック・修正するシステムの総称です。暴力・性的コンテンツ・ヘイトスピーチ・自傷行為・違法行為への誘導等を自動的にフィルタリングし、AIシステムの安全な運用を確保するための重要なセーフガードです。
主要なセーフティフィルター製品として、(1)OpenAI Moderation API:テキストを11カテゴリ(ヘイト・暴力・性的コンテンツ・自傷行為等)で分類するAPI。ChatGPTの入出力フィルタリングに使用されている無料API、(2)Llama Guard(Meta):Llamaベースの安全性分類モデル。カスタマイズ可能な安全性カテゴリでユーザー入力とモデル出力の両方を評価、(3)Anthropic Constitutional AI:モデル自身が自分の出力を安全性の原則に照らして評価・修正するアプローチ、(4)Guardrails AI:LLMの入出力に対してバリデーション・構造化・安全性チェックを適用するオープンソースフレームワーク、(5)NVIDIA NeMo Guardrails:対話型AIの安全性・トピック制御を実装するフレームワークがあります。
フィルタリングの方式として、(1)入力フィルター(Input Guard):ユーザーのプロンプトを検査し、ジェイルブレイク試行・有害なリクエスト・プロンプトインジェクション攻撃を検出・ブロック、(2)出力フィルター(Output Guard):モデルの応答を検査し、有害コンテンツ・個人情報・機密情報の漏洩を検出・修正・ブロック、(3)リアルタイムフィルター:ストリーミング出力をトークン単位で監視し、有害コンテンツの生成が始まった時点で即座に停止、の3層で構成されるのが一般的です。
課題として、(1)過剰フィルタリング:正当な利用(医療相談・セキュリティ研究等)まで誤ってブロックしてしまう問題、(2)バイパス:巧みなプロンプト工夫でフィルターを回避する手法が次々と発見される、(3)多言語対応:英語以外の言語でのフィルタリング精度が低い場合がある、(4)文化的バイアス:特定の文化・価値観に基づくフィルタリング基準が他文化に適さない場合がある点が指摘されています。
参考情報・出典
- ▸OpenAI Moderation API Documentation— OpenAI(参照日: 2026-02-26)
- ▸Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations— arXiv / Meta(参照日: 2026-02-26)