一文定義
拡散モデルとは、画像にノイズを段階的に加えてから除去する過程を学習し、ランダムなノイズから高品質な画像を生成するAIモデルです。現在の画像生成AIの主流技術です。
詳細解説
拡散モデル(Diffusion Model)とは、データ(画像など)に徐々にノイズを加えて完全なランダムノイズにする「拡散過程(Forward Process)」と、そのノイズから元のデータを復元する「逆拡散過程(Reverse Process)」をニューラルネットワークで学習し、ランダムノイズから新しいデータを生成するモデルです。2020年のHoらの論文(DDPM)で注目が集まりました。
なぜ拡散モデルが現在の主流かというと、従来のGANと比べて学習が安定しており、高解像度で多様な画像を生成できるためです。Stable Diffusion・Midjourney・DALL-E 3など、主要な画像生成AIサービスの中核技術として採用されています。
直感的な理解として、「砂時計でサラサラと砂が崩れていく過程(ノイズ追加)を逆に再現し、砂漠の砂からお城の彫刻を作り出す」ようなイメージです。モデルは各ステップで「このノイズはどのようなノイズが加わったのか」を推定することを学習します。
テキストトゥイメージへの応用では、テキストエンコーダー(CLIPなど)でテキストをベクトルに変換し、そのベクトルを条件として逆拡散過程を制御することで、プロンプトに合った画像を生成します。画像以外にも、動画・音声・3Dモデル生成への応用が進んでいます。
参考情報・出典
- ▸Denoising Diffusion Probabilistic Models— arXiv(参照日: 2026-02-25)
- ▸Diffusion model - Wikipedia— Wikipedia(参照日: 2026-02-25)