一文定義
密検索(Dense Retrieval)とは、クエリと文書をベクトル化して意味的類似度で検索する手法です。BM25などのスパース検索と対比し、RAGシステムの中核技術として広く採用されています。
詳細解説
密検索(Dense Retrieval、Dense Passage Retrieval)とは、クエリ(検索質問)と文書の両方を密なベクトル表現(埋め込み)に変換し、ベクトル空間での類似度(コサイン類似度や内積)によって関連文書を検索する手法です。従来のBM25のようなスパース(疎な)キーワードマッチングと対比して「密(Dense)」と呼ばれます。
スパース検索との違いを説明します。スパース検索(BM25、TF-IDF)は単語の完全一致や出現頻度に依存するため、「犬」と「イヌ」、「car」と「automobile」のような表現の違いに対応できません。密検索はニューラルエンコーダーで意味的に類似したテキストを近いベクトルに写像するため、言い換えや類義語を横断した意味的検索が可能です。
代表的なモデルを紹介します。DPR(Dense Passage Retrieval、Facebook AI 2020)は二つのBERTエンコーダーを使いクエリと文書を独立にエンコードした草分け的モデルです。ColBERT(Late Interaction)はトークンレベルの精密なマッチングで高精度を実現します。E5(Microsoft)・BGE(BAAI)・GTE・jina-embeddingsなど高品質な汎用埋め込みモデルが多数公開されています。
RAGシステムとの関係として、密検索はベクトルデータベース(Pinecone、Weaviate、Chroma等)と組み合わせて使用され、RAGの検索フェーズの中核を担います。BM25との組み合わせ(ハイブリッド検索)と、クロスエンコーダーによる再ランキングを組み合わせることで、さらに高精度な検索パイプラインが構築できます。
参考情報・出典
- ▸Dense Passage Retrieval for Open-Domain Question Answering (DPR)— arXiv / Karpukhin et al.(参照日: 2026-02-26)
- ▸ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT— arXiv / Khattab & Zaharia(参照日: 2026-02-26)