一文定義
自己教師あり学習とは、ラベルなしデータから自動生成した疑似ラベルを使って学習する手法です。GPTの「次のトークン予測」やBERTの「マスク言語モデリング」が代表例で、現代のLLM事前学習の基盤技術です。
詳細解説
自己教師あり学習(Self-Supervised Learning)とは、人間がアノテーション(ラベル付け)を行わずに、データ自体から自動的に教師信号を生成して学習する手法です。広義の教師なし学習に分類されますが、「自動生成された疑似ラベル」を用いる点で一般的な教師なし学習と区別されます。
自己教師あり学習が重要な理由は、大規模な未ラベルデータからリッチな表現を学習できるためです。インターネット上の膨大なテキスト・画像・動画を活用することで、GPTはウェブテキストから「次のトークンを予測する」という自己教師あり課題を通じて言語の知識を獲得し、BERTはランダムにマスクした単語を予測する「マスク言語モデリング」で文脈理解能力を習得しました。
代表的な自己教師あり学習タスクとして、Causal Language Modeling(次のトークン予測、GPT系)、Masked Language Modeling(マスク穴埋め、BERT系)、Contrastive Learning(類似サンプルの近傍化、SimCLR・CLIP)、Masked Autoencoders(MAE、画像パッチのマスク予測)などがあります。現代のLLMのpretrainingはほぼすべて自己教師あり学習によるもので、この技術なしには現在の生成AIの発展はありませんでした。
参考情報・出典
- ▸Self-supervised learning: The dark matter of intelligence— Meta AI / Yann LeCun (2021)(参照日: 2026-02-26)
- ▸Self-supervised learning - Wikipedia— Wikipedia(参照日: 2026-02-26)