基礎概念

自己教師あり学習

じこきょうしありがくしゅう

一文定義

自己教師あり学習とは、ラベルなしデータから自動生成した疑似ラベルを使って学習する手法です。GPTの「次のトークン予測」やBERTの「マスク言語モデリング」が代表例で、現代のLLM事前学習の基盤技術です。

詳細解説

自己教師あり学習(Self-Supervised Learning)とは、人間がアノテーション(ラベル付け)を行わずに、データ自体から自動的に教師信号を生成して学習する手法です。広義の教師なし学習に分類されますが、「自動生成された疑似ラベル」を用いる点で一般的な教師なし学習と区別されます。

自己教師あり学習が重要な理由は、大規模な未ラベルデータからリッチな表現を学習できるためです。インターネット上の膨大なテキスト・画像・動画を活用することで、GPTはウェブテキストから「次のトークンを予測する」という自己教師あり課題を通じて言語の知識を獲得し、BERTはランダムにマスクした単語を予測する「マスク言語モデリング」で文脈理解能力を習得しました。

代表的な自己教師あり学習タスクとして、Causal Language Modeling(次のトークン予測、GPT系)、Masked Language Modeling(マスク穴埋め、BERT系)、Contrastive Learning(類似サンプルの近傍化、SimCLR・CLIP)、Masked Autoencoders(MAE、画像パッチのマスク予測)などがあります。現代のLLMのpretrainingはほぼすべて自己教師あり学習によるもので、この技術なしには現在の生成AIの発展はありませんでした。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る