モデル

ビジョン言語モデル(VLM)

ビジョンげんごモデル

一文定義

ビジョン言語モデル(VLM)とは、画像とテキストの両方を入力・出力できるマルチモーダルAIモデルです。GPT-4V、Gemini、Claudeなどが代表例で、画像の理解・説明・分析に活用されます。

詳細解説

ビジョン言語モデル(Vision-Language Model、VLM)とは、画像とテキストを統合的に処理できるマルチモーダルAIモデルです。画像の認識・理解とテキストの生成を組み合わせることで、「この画像を説明して」「図表からデータを読み取って」「スクリーンショットのUIを修正して」といった複合的なタスクをこなせます。

VLMが重要な理由は、現実世界の多くの情報が画像・図表・動画などの視覚情報を含むためです。テキストのみのLLMではこれらを処理できませんが、VLMによって書類のOCR・医療画像診断補助・製造業の外観検査・ECサイトの画像解析など幅広い用途が開拓されています。

代表的なVLMとして、OpenAI GPT-4V・GPT-4o(テキスト+画像入力)、Google Gemini 1.5 Pro(動画も処理可)、Anthropic Claude 3シリーズ(画像分析)、オープンソース系のLLaVAやInternVLなどがあります。transformerアーキテクチャを拡張し、画像をパッチ分割してembeddingとして処理するのが一般的な手法です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る