一文定義
敵対的攻撃とは、人間には知覚されにくい微小な摂動をデータに加えてAIモデルを誤分類させる攻撃手法です。画像認識・音声認識・LLMなど幅広いAIシステムの堅牢性に関わる重要なセキュリティ課題です。
詳細解説
敵対的攻撃(Adversarial Attack)とは、機械学習モデルに対して、人間の知覚では検出しにくい微小な変動(敵対的摂動)を入力データに加えることで、モデルを意図的に誤分類・誤動作させる攻撃手法です。2014年にGoodfellowらが「敵対的サンプル(Adversarial Examples)」として発表し、AIセキュリティの重要な研究分野となりました。
敵対的攻撃が重要な理由は、高精度なAIシステムであっても意図的な攻撃に対して脆弱であることが示されたためです。画像分類モデルにピクセル単位のノイズを加えるだけでパンダをテナガザルと誤分類させたり、自動運転の標識認識を欺いたりすることが可能です。医療診断・自動運転・金融不正検知など、高信頼性が求められる場面での影響は特に深刻です。
LLMの文脈では、prompt-injectionやjailbreakも敵対的攻撃の一形態とみなせます。攻撃の種類として、モデルへのアクセス方法によりホワイトボックス攻撃(内部情報あり)とブラックボックス攻撃(外部からのみ)に分類されます。防御手法としては、Adversarial Training(敵対的サンプルを含めた再学習)、入力のランダム化、認定ロバスト性(Certified Robustness)などが研究されています。
参考情報・出典
- ▸Explaining and Harnessing Adversarial Examples— arXiv / Goodfellow et al. (2014)(参照日: 2026-02-26)
- ▸Adversarial machine learning - Wikipedia— Wikipedia(参照日: 2026-02-26)