一文定義
合成データとは、実際のデータの代わりにAIや統計的手法で人工的に生成したデータです。プライバシー保護・希少データの補完・モデル評価に活用され、LLMの学習データ生成にも応用されています。
詳細解説
合成データ(Synthetic Data)とは、実際に収集・観測したデータではなく、生成AI・統計モデル・シミュレーションなどを用いて人工的に生成したデータのことです。個人情報を含まない代替データとして、またはデータ不足を補う手段として注目されています。
合成データが重要な理由は、現実データの収集・アノテーションコスト削減とプライバシー保護の両立が可能なためです。医療画像(希少疾患の症例を生成)、自動運転(シミュレーション環境でのデータ生成)、金融(異常取引の学習サンプル生成)など、実データの取得が困難または危険な分野で活用が進んでいます。
LLMの文脈では、既存LLMを使って高品質な学習データを自動生成する「self-play」や「instruction-tuning用データ生成」が一般化しています。例えばMicrosoftのPhi-1モデルは「教科書品質」の合成データのみで学習し、はるかに大きいモデルに匹敵する性能を示しました。一方で、合成データで学習したモデルから合成データを生成する「モデル崩壊(Model Collapse)」リスクも研究されており、実データとの組み合わせが推奨されています。
参考情報・出典
- ▸Synthetic data - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸Textbooks Are All You Need (Phi-1)— arXiv / Microsoft Research (2023)(参照日: 2026-02-26)