一文定義
LLMの内部表現を解釈可能な特徴に分解するツール。Anthropicが「解釈可能性研究」で活用し、モデルが「何を考えているか」を人間が理解できる概念に変換する。
詳細解説
スパースオートエンコーダー(SAE: Sparse Autoencoder)とは、ニューラルネットワークの内部表現(活性化ベクトル)を、人間が解釈可能な「特徴」に分解する教師なし学習手法です。Anthropicが2023〜2024年にClaude等のLLMの内部解析に適用して大きな成果を上げ、LLMの「ブラックボックス」を解明する機械的解釈可能性(Mechanistic Interpretability)研究の中核ツールとして注目されています。
背景として、LLMの各ニューロンは通常「重ね合わせ(Superposition)」の状態にあり、1つのニューロンが複数の概念を同時に表現しています。このため個々のニューロンを見ても「モデルが何を考えているか」を理解することが困難です。SAEはこの重ね合わせを解きほぐし、意味的に明確な特徴(例:「ゴールデンゲートブリッジ」「皮肉的な表現」「Pythonコード」等)を抽出します。
技術的な仕組みとして、(1)入力:LLMの中間層の活性化ベクトル(次元数d)、(2)エンコーダ:活性化ベクトルを高次元(d × 10〜100倍)の潜在空間に射影し、ReLUとスパース性制約により少数の特徴のみが活性化するよう学習、(3)デコーダ:活性化した特徴ベクトルを元の次元に復元。再構成誤差を最小化するよう学習、(4)スパース性:L1正則化により、各入力に対して全特徴のうちごく少数(1〜5%)のみが活性化する「疎」な表現を学習、という構成です。
Anthropicの研究成果として、Claude 3 Sonnetに対するSAE分析では、数百万個の解釈可能な特徴が発見されました。これらの特徴を人工的に操作(増幅・抑制)することで、モデルの出力を制御できることも実証されています。この研究はAIの安全性・アライメントにおいて、モデルの内部動作を理解し制御するための基盤技術として重要な意義を持っています。
参考情報・出典
- ▸Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet— Anthropic(参照日: 2026-02-26)
- ▸Towards Monosemanticity: Decomposing Language Models With Dictionary Learning— Anthropic / Transformer Circuits Thread(参照日: 2026-02-26)