一文定義
ラベルなしデータを類似度に基づいてグループ(クラスター)に自動分類する教師なし学習の代表的タスク。K-means・DBSCANが代表。
詳細解説
クラスタリング(Clustering)とは、正解ラベルを持たないデータを、データ点間の類似度・距離に基づいて自動的にグループ(クラスター)に分類する教師なし学習の代表的なタスクです。「何が似ているか」の基準を人間が与えずにデータの構造を発見できる点が特徴です。
代表的なアルゴリズムとして、(1)K-means:k個のクラスター中心を繰り返し更新して収束させるシンプルで高速な手法(クラスター数kの事前指定が必要)、(2)DBSCAN:密度ベースの手法で任意形状クラスターや外れ値検出が可能、(3)階層型クラスタリング(Ward法等):デンドログラムで階層構造を可視化、(4)ガウス混合モデル(GMM):確率的なクラスタリングがあります。
ビジネスでの活用例として、(1)顧客セグメンテーション(RFM分析と組み合わせた購買パターン分類)、(2)文書・記事のトピック分類、(3)異常検知(正常パターンのクラスターから逸脱したデータ点の検出)、(4)推薦システムの類似ユーザーグループ特定があります。
LLM時代のクラスタリング応用として、テキストを埋め込みモデルでベクトル化してから類似文書をクラスタリングするテキストクラスタリングが、情報整理・RAGのチャンク最適化・トピックモデリングで活用されています。
参考情報・出典
- ▸Cluster analysis – Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸scikit-learn Clustering Documentation— scikit-learn(参照日: 2026-02-26)