一文定義
アクティベーションステアリングとは、LLMの中間層の活性化ベクトルを直接操作してモデルの振る舞いを制御する技術で、特定の概念ベクトルを加算・減算することで感情・トピック・スタイルを誘導できます。
詳細解説
アクティベーションステアリング(Activation Steering)とは、LLMの内部表現(中間層の活性化ベクトル)を直接操作することで、プロンプトを変えることなくモデルの出力を誘導する技術です。解釈可能性研究から生まれた実験的アプローチです。
なぜ重要かというと、プロンプトエンジニアリングでは誘導しにくいモデルの深層的な振る舞い(感情トーン・概念的傾向)を、より直接的に制御できるためです。また、モデルが内部でどのように概念を表現しているかを解明する手がかりにもなります。
具体的には、「怒り」「喜び」「フランス語」などの概念に対応する「概念ベクトル」を事前に抽出し、推論時にそのベクトルを活性化に加算・減算します。例えば怒りベクトルを減算すれば、より穏やかな応答を引き出せます。
Anthropicの研究では、Claudeの活性化を操作してキャラクター設定への反応を変えたり、Sparse Autoencoderと組み合わせて特定の概念を制御したりする実験が行われています。将来的には、アライメントやセーフティの新しいアプローチとして注目されています。
参考情報・出典
- ▸Activation Addition: Steering Language Models Without Optimization— arXiv / Turner et al.(参照日: 2026-02-26)
- ▸Steering Claude's Behavior with Activation Engineering— Anthropic(参照日: 2026-02-26)