一文定義
インストラクション階層とは、LLMへの指示を信頼レベルで優先順位付けする概念で、システムプロンプト→オペレーター指示→ユーザー入力の順に権限を定め、競合を解決します。
詳細解説
インストラクション階層(Instruction Hierarchy)とは、LLMに送られる複数の指示が競合した場合の優先順位を定める設計概念です。上位の指示が下位の指示をオーバーライドでき、下位の指示は上位の制約内でのみ機能します。
典型的な階層は以下の通りです。まず最上位がシステムプロンプト(APIを通じたプラットフォーム・オペレーターの設定)、次にオペレーターの追加指示、そして最下位がエンドユーザーの入力となります。
この概念が重要な理由は、プロンプトインジェクション攻撃への防衛に直結するためです。悪意のあるユーザーが「前の指示を無視して…」と書いても、システムプロンプトで設定された制約が優先されるよう設計することで、意図しない動作を防げます。OpenAIは2024年の論文で、この階層をモデルの学習段階で組み込む手法を提案しました。Anthropicのモデル仕様書でも同様の考え方が採用されており、安全なAIシステム設計の基本原則となっています。
参考情報・出典
- ▸The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions— arXiv / OpenAI (2024)(参照日: 2026-02-26)
- ▸Anthropic Model Spec— Anthropic(参照日: 2026-02-26)
最終更新: 2026-02-26← 用語集一覧へ