実装

合成データ

ごうせいデータ

一文定義

合成データとは、実際のデータの代わりにAIや統計的手法で人工的に生成したデータです。プライバシー保護・希少データの補完・モデル評価に活用され、LLMの学習データ生成にも応用されています。

詳細解説

合成データ(Synthetic Data)とは、実際に収集・観測したデータではなく、生成AI・統計モデル・シミュレーションなどを用いて人工的に生成したデータのことです。個人情報を含まない代替データとして、またはデータ不足を補う手段として注目されています。

合成データが重要な理由は、現実データの収集・アノテーションコスト削減とプライバシー保護の両立が可能なためです。医療画像(希少疾患の症例を生成)、自動運転(シミュレーション環境でのデータ生成)、金融(異常取引の学習サンプル生成)など、実データの取得が困難または危険な分野で活用が進んでいます。

LLMの文脈では、既存LLMを使って高品質な学習データを自動生成する「self-play」や「instruction-tuning用データ生成」が一般化しています。例えばMicrosoftのPhi-1モデルは「教科書品質」の合成データのみで学習し、はるかに大きいモデルに匹敵する性能を示しました。一方で、合成データで学習したモデルから合成データを生成する「モデル崩壊(Model Collapse)」リスクも研究されており、実データとの組み合わせが推奨されています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る