一文定義
CLIPとは、OpenAIが2021年に開発した画像とテキストを対照学習で結びつけるモデル(Contrastive Language-Image Pre-Training)です。DALL-EやStable Diffusionの基盤技術として、テキストから画像を生成するAIの中核を担います。
詳細解説
CLIP(Contrastive Language-Image Pre-Training)とは、OpenAIが2021年に発表したモデルで、インターネット上から収集した4億枚の「画像とテキストのペア」を対照学習(contrastive-learning)で学習し、画像とテキストを同一のベクトル空間に埋め込む能力を獲得したモデルです。
CLIPが重要な理由は、テキストと画像を統一した埋め込み空間で扱えることで、「テキストで画像を検索する」「ゼロショットで画像分類する」「テキストから画像を生成する際のガイド信号として使う」など多様な応用が可能になったためです。ImageNetの分類タスクで、追加のfine-tuningなしにzero-shot-learningで高い精度を達成したことが大きな注目を集めました。
CLIPは現代の画像生成AIの基盤技術として欠かせない存在です。DALL-E・Stable Diffusion・Midjourneyなどのtext-to-imageモデルは、CLIPのテキストエンコーダーを使ってプロンプトの意味を理解し、拡散モデルの生成方向を制御します。また画像検索エンジン、コンテンツモデレーション、vision-language-modelの構築にも広く活用されています。OpenAIはその後CLIPを発展させたSigLIPやOpenCLIPなどのモデルも公開されています。
参考情報・出典
- ▸Learning Transferable Visual Models From Natural Language Supervision— arXiv / Radford et al. / OpenAI (2021)(参照日: 2026-02-26)
- ▸CLIP - OpenAI— OpenAI(参照日: 2026-02-26)