合成データとは？わかりやすく解説

一文定義

合成データとは、実際のデータの代わりにAIや統計的手法で人工的に生成したデータです。プライバシー保護・希少データの補完・モデル評価に活用され、LLMの学習データ生成にも応用されています。

詳細解説

合成データ（Synthetic Data）とは、実際に収集・観測したデータではなく、生成AI・統計モデル・シミュレーションなどを用いて人工的に生成したデータのことです。個人情報を含まない代替データとして、またはデータ不足を補う手段として注目されています。

合成データが重要な理由は、現実データの収集・アノテーションコスト削減とプライバシー保護の両立が可能なためです。医療画像（希少疾患の症例を生成）、自動運転（シミュレーション環境でのデータ生成）、金融（異常取引の学習サンプル生成）など、実データの取得が困難または危険な分野で活用が進んでいます。

LLMの文脈では、既存LLMを使って高品質な学習データを自動生成する「self-play」や「instruction-tuning用データ生成」が一般化しています。例えばMicrosoftのPhi-1モデルは「教科書品質」の合成データのみで学習し、はるかに大きいモデルに匹敵する性能を示しました。一方で、合成データで学習したモデルから合成データを生成する「モデル崩壊（Model Collapse）」リスクも研究されており、実データとの組み合わせが推奨されています。

参考情報・出典

▸
Synthetic data - Wikipedia— Wikipedia（参照日: 2026-02-26）
▸
Textbooks Are All You Need (Phi-1)— arXiv / Microsoft Research (2023)（参照日: 2026-02-26）

合成データ

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する