基礎概念

マルチモーダルエンベディング

マルチモーダルエンベディング

一文定義

テキスト・画像・音声など異なるモダリティを同一ベクトル空間に埋め込む技術。CLIPが代表例で、テキストと画像の意味的類似性計算・クロスモーダル検索に活用。

詳細解説

マルチモーダルエンベディング(Multimodal Embedding)とは、テキスト・画像・音声・動画など異なる種類のデータ(モダリティ)を、共通のベクトル空間に変換(埋め込み)する技術です。同じ意味を持つ異なるモダリティのデータが近いベクトルにマッピングされるため、「犬の写真」と「犬」というテキストが近い位置に配置され、クロスモーダルな検索・比較・理解が可能になります。

代表的なモデルとして、(1)CLIP(OpenAI, 2021):テキストと画像を同一ベクトル空間に埋め込む先駆的モデル。4億の画像-テキストペアで対照学習し、ゼロショットで画像分類やテキスト→画像検索が可能、(2)SigLIP(Google):CLIPを改良したモデル。シグモイド損失を使用し、バッチサイズに依存しない効率的な学習を実現、(3)ImageBind(Meta):テキスト・画像・音声・動画・深度・熱画像の6モダリティを統一的に埋め込む、(4)Cohere Embed v3:テキスト・画像のマルチモーダル埋め込みを商用APIとして提供、(5)Voyage Multimodal:テキスト・画像の埋め込みAPIを提供があります。

LLMアプリ開発での活用として、(1)マルチモーダルRAG:テキスト文書と画像を同一のベクトルDBに格納し、テキストクエリで関連画像を検索、または画像クエリで関連テキストを検索する統合検索システム、(2)Eコマース検索:商品画像とテキスト説明を統合的にインデックスし、「赤いワンピース」というテキストで関連商品画像を検索、(3)コンテンツ推薦:ユーザーが閲覧した画像に意味的に近いテキスト記事を推薦、または逆のパターン、(4)重複検出:異なるモダリティ間でのコンテンツ重複・類似性検出があります。

技術的な仕組みとして、対照学習(Contrastive Learning)がベースです。正のペア(同じ意味の画像-テキスト)のベクトルを近づけ、負のペア(異なる意味の画像-テキスト)のベクトルを遠ざけるように学習します。これにより、モダリティに依存しない意味表現空間が構築されます。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る