一文定義
コサイン類似度とは、2つのベクトル間の角度でテキストや画像の意味的な類似度を測る指標です。RAGやセマンティック検索における検索クエリと文書の関連度計算の中核で使われています。
詳細解説
コサイン類似度(Cosine Similarity)とは、2つのベクトルのなす角度のコサイン値で類似度を表す指標です。値は-1〜1の範囲をとり、1に近いほど意味的に類似(ベクトルの向きが一致)、0に近いほど無関係、-1に近いほど対照的な意味を持ちます。ベクトルの大きさ(長さ)ではなく「方向」だけで類似度を測るため、文書の長さが異なる場合でも公平に比較できます。
コサイン類似度がAI分野で重要な理由は、embeddingで変換されたテキスト・画像・音声の意味的類似度を効率よく計算できるためです。RAGシステムでは、ユーザーのクエリをembeddingに変換し、データベース内の全文書embeddingとコサイン類似度を計算して最も関連性の高い文書を検索します。semantic-searchやvector-dbの検索アルゴリズムの中心的な演算です。
実装上の注意として、コサイン類似度が高くても必ずしも実際のタスクに有用とは限らない(embeddingモデルの品質に依存)点があります。大規模データベースでの全ペア計算はコスト大であるため、HNSW・IVFなどの近似最近傍探索(ANN)アルゴリズムで高速化するのが一般的です。また目的によってはEuclidean距離(L2距離)・内積(Dot Product)の方が適する場合もあります。rerankingと組み合わせることで検索精度をさらに向上できます。
参考情報・出典
- ▸Cosine similarity - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸Speech and Language Processing (3rd ed.) - Jurafsky & Martin— Stanford University(参照日: 2026-02-26)