一文定義
教師なし学習とは、ラベルなしデータからパターンや構造を自律的に発見する機械学習手法です。クラスタリング・次元削減・異常検知に活用され、LLMの事前学習もこの考え方を応用しています。
詳細解説
教師なし学習(Unsupervised Learning)とは、正解ラベルを与えずにデータの内部構造やパターンを自律的に発見する機械学習手法です。人間がラベル付けしたデータがなくても、データ間の類似性・関係性・統計的構造を学習できます。
教師なし学習が重要な理由は、現実世界のデータの大部分がラベルなしで存在するためです。膨大なインターネットテキストに正解ラベルを付けることは非現実的ですが、LLMの事前学習は「次のトークンを予測する」という教師なし(自己教師あり)タスクとして設計されており、大量の未ラベルデータから言語の知識を獲得しています。
主な手法として、クラスタリング(K-means、階層クラスタリング)、次元削減(PCA、t-SNE、UMAP)、生成モデル(VAE、GAN)、自己教師あり学習(Self-supervised Learning)などがあります。embeddingの学習も教師なし学習の一形態です。contrastive-learningは自己教師あり学習の代表的手法であり、CLIPなどのモデルはこの原理で画像とテキストを統合的に表現することを学習します。
参考情報・出典
- ▸Unsupervised learning - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸CS229: Machine Learning - Stanford University— Stanford University(参照日: 2026-02-26)