一文定義
DALL-Eとは、OpenAIが開発したテキストから高品質な画像を生成するモデルシリーズです。DALL-E 3では自然言語での細かな画像制御が可能になり、ChatGPTやAPIに統合されて広く使われています。
詳細解説
DALL-E(ダリ)とは、OpenAIが開発したテキストプロンプトから画像を生成するAIモデルシリーズです。画家のサルバドール・ダリとディズニーキャラクターのウォーリーを組み合わせた名称です。2021年のDALL-E(初代)、2022年のDALL-E 2、2023年のDALL-E 3と進化してきました。
DALL-Eが重要な理由は、テキストによる指示(プロンプト)から高品質な画像を生成するという概念を一般に広め、クリエイティブ分野でのAI活用を加速させたためです。DALL-E 3はChatGPTに統合され、「〇〇な感じの料理写真を作って」という日常的な会話でも画像生成できる体験を実現しました。
技術的には、DALL-E 2はCLIPのテキスト埋め込みと拡散モデルを組み合わせたアーキテクチャを採用しています。DALL-E 3ではプロンプトへの追従精度が大幅に向上し、細かいテキストの描写や複数オブジェクトの配置指定が可能になりました。競合としてMidjourney・stable-diffusion・Adobe Fireflyなどが存在し、text-to-imageの主要プレイヤーとして競争が続いています。日本語プロンプトへの対応も進んでいます。
参考情報・出典
- ▸Hierarchical Text-Conditional Image Generation with CLIP Latents (DALL-E 2)— arXiv / Ramesh et al. / OpenAI (2022)(参照日: 2026-02-26)
- ▸DALL-E 3 - OpenAI— OpenAI(参照日: 2026-02-26)