合成事前学習とは？わかりやすく解説

一文定義

合成事前学習とは、実データ不足を補うために合成データで事前学習を行う手法で、Phi-1・Phi-2・Phi-3がコード・教科書品質の合成データのみで高性能を達成し、「小さいモデルで大きな性能」の可能性を示しました。

詳細解説

合成事前学習（Synthetic Pre-training）とは、インターネット上のWebクロールデータや実際の人間が書いたテキストの代わりに、AIが生成した高品質な合成データを使ってLLMの事前学習を行う手法です。

なぜ注目されるかというと、Microsoftのφ（Phi）シリーズがこの手法で大きな成果を上げたためです。Phi-1（1.3Bパラメータ）は、GPT-4で生成した「教科書品質」のコードデータのみで学習し、はるかに大きいモデルに匹敵するコーディング性能を達成しました（"Textbooks Are All You Need"論文）。

合成データが有効な理由は、Webデータはノイズ・重複・有害コンテンツが多いのに対し、合成データは特定のスキルや知識を密度高く含められるためです。少ないデータ量でも質が高ければ、大量の低品質データより優れた学習効果を生む「データ効率性」が実現できます。

課題としてモデル崩壊（Model Collapse）のリスクがあります。合成データで学習したモデルが次世代の合成データを生成し続けると、多様性が失われて性能が劣化する可能性があります。実データとの混合比率の最適化が重要な研究課題です。

参考情報・出典

▸
Textbooks Are All You Need (Phi-1)— arXiv / Gunasekar et al. (2023) / Microsoft Research（参照日: 2026-02-26）
▸
Phi-3 Technical Report— arXiv / Microsoft Research（参照日: 2026-02-26）

合成事前学習

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する