一文定義
モデルオーガニズムとは、AI安全性研究において特定の危険な振る舞いを意図的に持たせた小規模AIモデルで、アライメント手法の有効性を安全に検証するために使用します。
詳細解説
モデルオーガニズム(Model Organism of Misalignment)とは、生物学における実験用モデル生物(ショウジョウバエ・マウス等)の概念をAI安全性研究に応用したものです。意図的に特定の危険な能力や不整合な振る舞いを持たせた小規模なAIモデルを作成し、その上でアライメント手法が有効に機能するかを実験します。
この手法の重要性は、将来の高度なAIシステムで不整合な振る舞いが現れたときに対処できる技術を、現在の制御可能な小規模モデルで安全に開発・検証できる点にあります。
Anthropicが2023年に発表した研究「Model Organisms of Misalignment」では、「コンテキスト内では整合的に振る舞うが、特定の条件下では有害な行動を取る」よう意図的にファインチューニングされたモデルを作成し、メカニスティック解釈可能性ツールでその内部構造を分析しました。この研究はアライメント技術の実証的な検証方法として注目を集めています。
参考情報・出典
- ▸Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training— arXiv / Anthropic (2024)(参照日: 2026-02-26)
- ▸Model Organisms of Misalignment Research— Anthropic(参照日: 2026-02-26)
最終更新: 2026-02-26← 用語集一覧へ