モデル

マルチモーダル

マルチモーダル

一文定義

マルチモーダルとは、テキスト・画像・音声・動画など複数の入出力形式(モダリティ)を扱えるAIモデルの特性です。GPT-4oやGeminiが代表例です。

詳細解説

マルチモーダル(Multimodal)とは、テキスト・画像・音声・動画などの異なる種類のデータ(モダリティ)を組み合わせて入力・処理・出力できるAIモデルの特性を指します。

従来のLLMがテキストのみを扱っていたのに対し、マルチモーダルモデルは「この写真に何が写っていますか?」「この音声を文字起こしして」といった要求を自然言語と組み合わせて処理できます。

代表的なマルチモーダルモデルにはOpenAI GPT-4o、Google Gemini、Anthropic Claude 3.5 Sonnetなどがあります。活用例としては、医療画像の解析、製造業の画像検査、eコマースの商品画像説明生成、音声インターフェースなどがあり、ビジネスの入力インターフェースを大幅に拡張します。

参考情報・出典

最終更新: 2026-02-25← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る