一文定義
AIが生成した合成データのみで学習を繰り返すと、モデルの多様性が失われて品質が劣化する現象。人間が生成した本物のデータの重要性を示すリスク概念。
詳細解説
モデルコラプス(Model Collapse)とは、AIモデルが生成した合成データ(Synthetic Data)を学習データとして使い、その学習済みモデルがさらに合成データを生成し…というサイクルを繰り返すことで、モデルの出力多様性が失われ、品質が劣化していく現象です。Shumailovらが2024年にNature誌に発表した研究で体系的に実証され、生成AI時代のデータ品質に関する重要なリスク概念として注目されています。
メカニズムとして、モデルコラプスは以下のプロセスで進行します。(1)第1世代モデルが人間のデータで学習し、高品質なテキストを生成、(2)第2世代モデルが第1世代の出力を学習データとして使用。この時点で元のデータ分布の「裾」(珍しい表現・少数派の意見等)が失われ始める、(3)以降の世代を重ねるごとに、出力分布が元の多様性を失い、特定のパターンに収束。最終的にはほぼ同じ文章しか生成できなくなります。
2つのタイプとして、(1)早期モデルコラプス:少数世代で急速に品質が劣化。学習データのサイズが小さい場合や、サンプリング温度が低い場合に発生しやすい、(2)後期モデルコラプス:多くの世代を経て徐々に劣化。一見正常に見えるが、長期的には多様性が失われていく、が区別されています。
実世界への影響として、インターネット上のコンテンツにAI生成テキストが増加する中、WebスクレイピングでLLMの学習データを収集すると、意図せずAI生成データが学習データに混入する「データ汚染」が発生します。これが世代を重ねてモデルコラプスを引き起こすリスクが指摘されています。対策として、(1)人間が生成したオリジナルデータの保存・識別、(2)AI生成コンテンツのウォーターマーキング、(3)学習データのフィルタリング・品質管理が重要とされています。
参考情報・出典
- ▸AI models collapse when trained on recursively generated data— Nature / Shumailov et al.(参照日: 2026-02-26)
- ▸The Curse of Recursion: Training on Generated Data Makes Models Forget— arXiv / Shumailov et al.(参照日: 2026-02-26)