一文定義
テキストや画像から3Dモデル・シーンを生成するAI技術。DreamFusion・Point-E・Shap-Eが代表例。ゲーム開発・製品デザイン・建築分野での活用が期待される。
詳細解説
テキスト→3D生成(Text-to-3D)とは、自然言語のテキスト説明や2D画像を入力として、3Dオブジェクトや3Dシーンを自動生成するAI技術です。画像生成AI(Stable Diffusion・DALL-E)の成功を受けて3次元への拡張として急速に研究が進み、2022〜2024年にかけて実用レベルの品質に到達しつつあります。
主要なアプローチとして、(1)スコア蒸留サンプリング(SDS):DreamFusionが提案した手法。事前学習済みの拡散モデルを「先生」として、3Dモデルのレンダリング画像が高品質になるようにNeRF(Neural Radiance Field)を最適化。テキストから直接3Dを生成できる画期的な手法、(2)ポイントクラウド生成:OpenAIのPoint-E・Shap-Eが採用。3D形状を点群(3D空間の座標の集合)または明示的なメッシュとして生成し高速処理が可能、(3)マルチビュー一貫性手法:複数視点の画像を生成し、3D再構成に活用する手法。Zero-1-to-3・One-2-3-45等、(4)3D拡散モデル:3Dデータで直接学習した拡散モデル。Shap-E・GET3D・Magic3D等があります。
代表的なモデル・ツールとして、(1)OpenAI Shap-E(2023):テキスト・画像から3Dメッシュを生成。オープンソース、(2)Point-E(OpenAI, 2022):テキストから3Dポイントクラウドを高速生成、(3)DreamFusion(Google, 2022):SDS法の先駆的論文、(4)TripoSG・Meshy・Kaedim等の商用サービスが画像→高品質3Dメッシュ変換を提供しています。
主要なユースケースとして、(1)ゲーム開発:3Dアセット制作コスト・時間の大幅削減、(2)製品デザイン:コンセプトを素早く3D可視化してプロトタイピング、(3)建築・インテリア:テキスト説明からインテリアデザイン案を3Dで生成、(4)Eコマース:商品の3Dビュー・AR表示用コンテンツを自動生成があります。技術の成熟度はText-to-Imageと比較してまだ発展途上ですが、2025年以降の急速な進歩が期待されています。
参考情報・出典
- ▸DreamFusion: Text-to-3D using 2D Diffusion— arXiv / Poole et al. (Google)(参照日: 2026-02-26)
- ▸Shap-E: Generating Conditional 3D Implicit Functions— arXiv / OpenAI(参照日: 2026-02-26)