一文定義
スケーリング則とは、モデルサイズ・学習データ量・計算量を増やすとモデル性能がべき乗則的に向上するという経験則です。現代のLLM開発戦略の理論的根拠となっており、GPT-4やGemini Ultra誕生の背景にあります。
詳細解説
スケーリング則(Scaling Laws)とは、大規模言語モデルの性能(損失値)がモデルのパラメータ数・学習データ量・計算量(FLOPs)のそれぞれに対してべき乗則(Power Law)に従って改善するという経験的な法則です。OpenAIのKaplanらが2020年に発表し、Anthropicも独自の研究を発表しています。
スケーリング則が重要な理由は、「スケールアップすれば性能が上がる」という予測可能な改善経路を示し、LLM開発への大規模投資を正当化する理論的根拠となったためです。この知見に基づき、GPT-3(175B)→GPT-4、PaLM(540B)→Gemini Ultraへの大型化が進みました。
2022年にDeepMindのHoffmannらが発表した「Chinchilla論文」は、「従来のモデルは計算量に対してモデルが大きすぎてデータが少ない」と指摘し、最適な計算効率のためにはモデルサイズとデータ量をほぼ同じ比率でスケールさせるべきと示しました。これによりLLaMAのように比較的小さいモデルでも大量データで学習することで高性能を達成する設計思想が広まりました。一方、スケーリングだけでは限界があるという見方も強まり、アーキテクチャ改善・reasoning-modelへの方向転換も進んでいます。
参考情報・出典
- ▸Scaling Laws for Neural Language Models— arXiv / Kaplan et al. / OpenAI (2020)(参照日: 2026-02-26)
- ▸Training Compute-Optimal Large Language Models (Chinchilla)— arXiv / Hoffmann et al. / DeepMind (2022)(参照日: 2026-02-26)