一文定義
ビジョン言語モデル(VLM)とは、画像とテキストの両方を入力・出力できるマルチモーダルAIモデルです。GPT-4V、Gemini、Claudeなどが代表例で、画像の理解・説明・分析に活用されます。
詳細解説
ビジョン言語モデル(Vision-Language Model、VLM)とは、画像とテキストを統合的に処理できるマルチモーダルAIモデルです。画像の認識・理解とテキストの生成を組み合わせることで、「この画像を説明して」「図表からデータを読み取って」「スクリーンショットのUIを修正して」といった複合的なタスクをこなせます。
VLMが重要な理由は、現実世界の多くの情報が画像・図表・動画などの視覚情報を含むためです。テキストのみのLLMではこれらを処理できませんが、VLMによって書類のOCR・医療画像診断補助・製造業の外観検査・ECサイトの画像解析など幅広い用途が開拓されています。
代表的なVLMとして、OpenAI GPT-4V・GPT-4o(テキスト+画像入力)、Google Gemini 1.5 Pro(動画も処理可)、Anthropic Claude 3シリーズ(画像分析)、オープンソース系のLLaVAやInternVLなどがあります。transformerアーキテクチャを拡張し、画像をパッチ分割してembeddingとして処理するのが一般的な手法です。
参考情報・出典
- ▸GPT-4V(ision) System Card— OpenAI(参照日: 2026-02-26)
- ▸Gemini: A Family of Highly Capable Multimodal Models— arXiv / Google(参照日: 2026-02-26)