自己教師あり学習とは？わかりやすく解説

一文定義

自己教師あり学習とは、ラベルなしデータから自動生成した疑似ラベルを使って学習する手法です。GPTの「次のトークン予測」やBERTの「マスク言語モデリング」が代表例で、現代のLLM事前学習の基盤技術です。

詳細解説

自己教師あり学習（Self-Supervised Learning）とは、人間がアノテーション（ラベル付け）を行わずに、データ自体から自動的に教師信号を生成して学習する手法です。広義の教師なし学習に分類されますが、「自動生成された疑似ラベル」を用いる点で一般的な教師なし学習と区別されます。

自己教師あり学習が重要な理由は、大規模な未ラベルデータからリッチな表現を学習できるためです。インターネット上の膨大なテキスト・画像・動画を活用することで、GPTはウェブテキストから「次のトークンを予測する」という自己教師あり課題を通じて言語の知識を獲得し、BERTはランダムにマスクした単語を予測する「マスク言語モデリング」で文脈理解能力を習得しました。

代表的な自己教師あり学習タスクとして、Causal Language Modeling（次のトークン予測、GPT系）、Masked Language Modeling（マスク穴埋め、BERT系）、Contrastive Learning（類似サンプルの近傍化、SimCLR・CLIP）、Masked Autoencoders（MAE、画像パッチのマスク予測）などがあります。現代のLLMのpretrainingはほぼすべて自己教師あり学習によるもので、この技術なしには現在の生成AIの発展はありませんでした。

参考情報・出典

▸
Self-supervised learning: The dark matter of intelligence— Meta AI / Yann LeCun (2021)（参照日: 2026-02-26）
▸
Self-supervised learning - Wikipedia— Wikipedia（参照日: 2026-02-26）

自己教師あり学習

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する