一文定義
高次元データを情報を保ちながら低次元に圧縮する手法。PCA・t-SNE・UMAPが代表例。可視化や計算効率化に活用。
詳細解説
次元削減(Dimensionality Reduction)とは、数百〜数千次元の高次元データを、重要な情報・構造をできる限り保持しながら2〜数十次元の低次元空間に変換する手法です。「次元の呪い」(高次元では距離の意味が薄れ、データが疎になる問題)への対策として、機械学習・データ可視化・特徴量エンジニアリングで広く用いられます。
代表的な手法として、(1)PCA(主成分分析):分散を最大化する方向(主成分)に射影する線形手法、計算が高速でデータの大域的構造を保持、(2)t-SNE(t分布確率的近傍埋め込み):局所的な近傍構造を保持した非線形手法、クラスターの可視化に優れるが計算コストが高い、(3)UMAP(Uniform Manifold Approximation and Projection):局所・大域的構造の両方を保持し高速、現在最も人気の可視化手法、(4)オートエンコーダー:ニューラルネットワークによる非線形次元削減があります。
LLM・埋め込みモデルとの組み合わせで、テキストや画像の埋め込みベクトル(通常768〜3072次元)をt-SNE/UMAPで2次元に投影してセマンティッククラスターを可視化する用途が一般化しています。
RAGシステムでは次元削減を用いた近似最近傍探索(ANN)が大規模ベクトルDBの検索速度向上に応用されています。
参考情報・出典
- ▸Visualizing Data using t-SNE— JMLR / van der Maaten & Hinton (2008)(参照日: 2026-02-26)
- ▸UMAP: Uniform Manifold Approximation and Projection— arXiv / McInnes et al. (2018)(参照日: 2026-02-26)