基礎概念

意味的類似度

意味的類似度

一文定義

意味的類似度とは、二つのテキストの意味的な近さを数値化する技術で、コサイン類似度・BERTScore・文章埋め込みの内積などで計算し、RAG・重複検出・意味検索・評価指標に広く使われます。

詳細解説

意味的類似度(Semantic Similarity)とは、二つのテキスト(単語・文・段落)が意味的にどれだけ近いかを数値で表す技術・タスクです。表面的な文字列の一致ではなく、意味的な内容の類似性を捉える点が特徴です。

主要な計算手法: **コサイン類似度**:二つのテキストをベクトル表現に変換し、ベクトル間の角度のコサイン値で類似度を計算します。1に近いほど類似、0に近いほど非類似、-1は反対の意味を示します。 **BERTScore**:参照文と生成文のBERT埋め込みをトークン単位でマッチングし、精度・再現率・F1スコアを計算する評価指標です。 **Sentence-BERT(SBERT)**:文全体の意味を単一ベクトルで表現するために設計された埋め込みモデルで、意味的類似度計算に最適化されています。 **クロスエンコーダー**:二つの文を同時に入力して類似度スコアを出力する高精度だが低速なアプローチです。

主要な応用先: **RAG(検索拡張生成)**:クエリと文書の意味的類似度でランキングしてコンテキストを選択します。 **重複検出**:FAQや文書ベースの重複コンテンツを意味ベースで検出します。 **意味検索(Semantic Search)**:キーワード一致ではなく意味的な関連性で検索結果を返します。 **質問応答評価**:生成された回答と参照回答の意味的な一致度を測定します。 **推薦システム**:ユーザーの好みと商品説明の意味的な近さで推薦します。

RAGシステムの評価フレームワークであるRAGASも、意味的類似度を中心指標の一つとして採用しており、LLMアプリケーション評価の基礎技術となっています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る