一文定義
事前学習とは、大規模データでモデルに汎用的な知識を学習させる工程です。この段階で得た知識が、後続のファインチューニングやRLHFの出発点となります。
詳細解説
事前学習(Pre-training / プレトレーニング)とは、LLMの学習プロセスの第一段階で、ウェブテキスト・書籍・コードなど大規模かつ多様なデータを用いてモデルに汎用的な言語知識を習得させる工程です。
事前学習では主に「次のトークンを予測する」という自己教師あり学習(Self-Supervised Learning)が使われます。正解ラベルを人間が付けなくてもテキスト自体が教師信号になるため、インターネット上の膨大なデータを活用できます。GPT-4やClaudeなどの大規模モデルは、数兆トークン規模のデータで数週間〜数ヶ月かけて事前学習されます。
事前学習が重要な理由は、ここで得た「言語の理解力・世界知識・推論能力の基盤」が、後続するSFT(教師あり微調整)やRLHF(人間フィードバックによる強化学習)の出発点となるためです。事前学習の品質がモデル全体の性能上限を決定するため、データの多様性・クリーニングの丁寧さが非常に重要視されます。LoRAなどのファインチューニング手法も、この事前学習済みモデルを出発点として特定タスクへの適応を行います。
参考情報・出典
- ▸Training language models to follow instructions with human feedback— arXiv / OpenAI(参照日: 2026-02-25)
- ▸Hugging Face - Pre-Training Documentation— Hugging Face(参照日: 2026-02-25)