ビジョン言語モデル（VLM）とは？わかりやすく解説

一文定義

ビジョン言語モデル（VLM）とは、画像とテキストの両方を入力・出力できるマルチモーダルAIモデルです。GPT-4V、Gemini、Claudeなどが代表例で、画像の理解・説明・分析に活用されます。

詳細解説

ビジョン言語モデル（Vision-Language Model、VLM）とは、画像とテキストを統合的に処理できるマルチモーダルAIモデルです。画像の認識・理解とテキストの生成を組み合わせることで、「この画像を説明して」「図表からデータを読み取って」「スクリーンショットのUIを修正して」といった複合的なタスクをこなせます。

VLMが重要な理由は、現実世界の多くの情報が画像・図表・動画などの視覚情報を含むためです。テキストのみのLLMではこれらを処理できませんが、VLMによって書類のOCR・医療画像診断補助・製造業の外観検査・ECサイトの画像解析など幅広い用途が開拓されています。

代表的なVLMとして、OpenAI GPT-4V・GPT-4o（テキスト+画像入力）、Google Gemini 1.5 Pro（動画も処理可）、Anthropic Claude 3シリーズ（画像分析）、オープンソース系のLLaVAやInternVLなどがあります。transformerアーキテクチャを拡張し、画像をパッチ分割してembeddingとして処理するのが一般的な手法です。

参考情報・出典

▸
GPT-4V(ision) System Card— OpenAI（参照日: 2026-02-26）
▸
Gemini: A Family of Highly Capable Multimodal Models— arXiv / Google（参照日: 2026-02-26）

ビジョン言語モデル（VLM）

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する