モデル

CLIP

クリップ

一文定義

CLIPとは、OpenAIが2021年に開発した画像とテキストを対照学習で結びつけるモデル(Contrastive Language-Image Pre-Training)です。DALL-EやStable Diffusionの基盤技術として、テキストから画像を生成するAIの中核を担います。

詳細解説

CLIP(Contrastive Language-Image Pre-Training)とは、OpenAIが2021年に発表したモデルで、インターネット上から収集した4億枚の「画像とテキストのペア」を対照学習(contrastive-learning)で学習し、画像とテキストを同一のベクトル空間に埋め込む能力を獲得したモデルです。

CLIPが重要な理由は、テキストと画像を統一した埋め込み空間で扱えることで、「テキストで画像を検索する」「ゼロショットで画像分類する」「テキストから画像を生成する際のガイド信号として使う」など多様な応用が可能になったためです。ImageNetの分類タスクで、追加のfine-tuningなしにzero-shot-learningで高い精度を達成したことが大きな注目を集めました。

CLIPは現代の画像生成AIの基盤技術として欠かせない存在です。DALL-E・Stable Diffusion・Midjourneyなどのtext-to-imageモデルは、CLIPのテキストエンコーダーを使ってプロンプトの意味を理解し、拡散モデルの生成方向を制御します。また画像検索エンジン、コンテンツモデレーション、vision-language-modelの構築にも広く活用されています。OpenAIはその後CLIPを発展させたSigLIPやOpenCLIPなどのモデルも公開されています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る