一文定義
マルチモーダルとは、テキスト・画像・音声・動画など複数の入出力形式(モダリティ)を扱えるAIモデルの特性です。GPT-4oやGeminiが代表例です。
詳細解説
マルチモーダル(Multimodal)とは、テキスト・画像・音声・動画などの異なる種類のデータ(モダリティ)を組み合わせて入力・処理・出力できるAIモデルの特性を指します。
従来のLLMがテキストのみを扱っていたのに対し、マルチモーダルモデルは「この写真に何が写っていますか?」「この音声を文字起こしして」といった要求を自然言語と組み合わせて処理できます。
代表的なマルチモーダルモデルにはOpenAI GPT-4o、Google Gemini、Anthropic Claude 3.5 Sonnetなどがあります。活用例としては、医療画像の解析、製造業の画像検査、eコマースの商品画像説明生成、音声インターフェースなどがあり、ビジネスの入力インターフェースを大幅に拡張します。
参考情報・出典
- ▸GPT-4V(ision)System Card— OpenAI(参照日: 2026-02-25)
- ▸Multimodal AI - Google DeepMind— Google DeepMind(参照日: 2026-02-25)
最終更新: 2026-02-25← 用語集一覧へ