一文定義
合成事前学習とは、実データ不足を補うために合成データで事前学習を行う手法で、Phi-1・Phi-2・Phi-3がコード・教科書品質の合成データのみで高性能を達成し、「小さいモデルで大きな性能」の可能性を示しました。
詳細解説
合成事前学習(Synthetic Pre-training)とは、インターネット上のWebクロールデータや実際の人間が書いたテキストの代わりに、AIが生成した高品質な合成データを使ってLLMの事前学習を行う手法です。
なぜ注目されるかというと、Microsoftのφ(Phi)シリーズがこの手法で大きな成果を上げたためです。Phi-1(1.3Bパラメータ)は、GPT-4で生成した「教科書品質」のコードデータのみで学習し、はるかに大きいモデルに匹敵するコーディング性能を達成しました("Textbooks Are All You Need"論文)。
合成データが有効な理由は、Webデータはノイズ・重複・有害コンテンツが多いのに対し、合成データは特定のスキルや知識を密度高く含められるためです。少ないデータ量でも質が高ければ、大量の低品質データより優れた学習効果を生む「データ効率性」が実現できます。
課題としてモデル崩壊(Model Collapse)のリスクがあります。合成データで学習したモデルが次世代の合成データを生成し続けると、多様性が失われて性能が劣化する可能性があります。実データとの混合比率の最適化が重要な研究課題です。
参考情報・出典
- ▸Textbooks Are All You Need (Phi-1)— arXiv / Gunasekar et al. (2023) / Microsoft Research(参照日: 2026-02-26)
- ▸Phi-3 Technical Report— arXiv / Microsoft Research(参照日: 2026-02-26)