一文定義
テキストや画像を入力としてAIが新たな画像を生成する技術の総称。Stable Diffusion・DALL-E・Midjourneyが代表例。
詳細解説
画像生成(Image Generation)は、テキストプロンプト・参照画像・スケッチなどを入力として、AIが新たな画像を合成する技術の総称です。拡散モデル(Diffusion Model)・GAN・VAEなど複数のアーキテクチャが存在し、現在は拡散モデルが主流となっています。
代表的なモデルには、Stability AIのStable Diffusion(オープンソース)、OpenAIのDALL-E 3、Midjourneyなどがあります。いずれもテキストから高品質な画像を生成できるため、広告・イラスト・プロダクトデザイン・映像制作など多くのクリエイティブ分野に普及しています。
技術的には、テキストエンコーダー(CLIPなど)で入力プロンプトをベクトル表現に変換し、デノイジングプロセスで徐々にノイズ画像をクリーンな画像へと変換します。LoRAなどの軽量ファインチューニング手法により、特定のスタイルやキャラクターを学習させることも容易になっています。
著作権・肖像権・フェイク画像生成などの倫理・法的問題も浮上しており、AI生成コンテンツの透かし(Watermark)技術や開示規制が議論されています。
参考情報・出典
- ▸DALL-E 3 – OpenAI— OpenAI(参照日: 2026-02-26)
- ▸Stable Diffusion – Stability AI— Stability AI(参照日: 2026-02-26)