一文定義
テキスト・画像等をベクトル表現に変換する専用モデル。RAGやセマンティック検索の基盤として広く使われる。
詳細解説
埋め込みモデル(Embedding Model)とは、テキスト・画像・音声などの入力データを固定長の実数ベクトル(埋め込みベクトル)に変換する専用の機械学習モデルです。意味的に近いコンテンツは距離が近いベクトルに、意味的に遠いコンテンツは距離が遠いベクトルにマッピングされることで、類似検索・分類・クラスタリングを実現します。
代表的なテキスト埋め込みモデルとして、OpenAIのtext-embedding-3-small/large(APIで利用可能)、MicrosoftのE5シリーズ、BAAIのBGE(BAAI General Embedding)、CohereのEmbed v3があります。多言語対応モデルではmultilingual-e5-large-instructが日本語を含む100言語以上で高性能を発揮します。
埋め込みモデルの選定基準は、(1)ベクトル次元数(小さいほどストレージ・計算コスト削減)、(2)最大トークン長(長文書への対応度)、(3)言語対応(日本語精度)、(4)ドメイン適合性(法律・医療等の専門分野)です。RAGシステムでは埋め込みモデルの品質がそのまま検索精度に直結するため、ユースケースに合ったモデル評価が不可欠です。
ファインチューニングによって特定ドメインの埋め込み精度を向上させることも可能で、対照学習(Contrastive Learning)ベースの手法が主流です。
参考情報・出典
- ▸Text embeddings – OpenAI Documentation— OpenAI(参照日: 2026-02-26)
- ▸MTEB: Massive Text Embedding Benchmark— Hugging Face(参照日: 2026-02-26)