一文定義
データポイズニングとは、学習データに悪意あるサンプルを混入させてモデルの挙動を意図的に改ざんする攻撃手法です。AIシステムのセキュリティリスクとして、OWASP LLM Top 10にも挙げられています。
詳細解説
データポイズニング(Data Poisoning)とは、AIモデルの学習データセットに悪意あるサンプルを意図的に混入させ、モデルの予測精度を低下させたり、特定の入力に対して攻撃者の意図した誤った出力を生成させたりする攻撃手法です。モデルが悪意ある「毒」を含んだデータを学習してしまうことから「ポイズニング(毒入れ)」と呼ばれます。
データポイズニングが深刻な理由は、学習データの汚染がモデルの挙動に恒久的な悪影響を与えるためです。通常のセキュリティ攻撃とは異なり、モデルを再学習するまで問題が残存します。特に、インターネット上のデータを大規模に収集して学習するLLMでは、攻撃者がWebコンテンツを事前に改ざんする「バックドア攻撃」のリスクが指摘されています。
代表的な攻撃シナリオとして、特定のトリガーフレーズを含む入力で有害な出力を生成させるバックドア攻撃、モデルの分類精度を全般的に低下させるクリーンラベル攻撃などがあります。防御策として、データクレンジング、異常検知、federated learningの活用、学習データのサプライチェーン管理が重要です。ai-governanceの観点からも、学習データの出所とセキュリティは重要なコンプライアンス課題です。
参考情報・出典
- ▸OWASP Top 10 for Large Language Model Applications— OWASP(参照日: 2026-02-26)
- ▸Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations— NIST(参照日: 2026-02-26)