実装

ビジュアルグラウンディング

ビジュアルグラウンディング

一文定義

ビジュアルグラウンディングとは、自然言語の表現が指す画像内の領域・物体を特定するタスクで、「赤い車の左にある木」のような参照表現から画像内の対応領域を見つけ、マルチモーダルモデルとロボティクスで重要です。

詳細解説

ビジュアルグラウンディング(Visual Grounding)とは、自然言語の表現(参照表現)と画像を入力とし、その言語表現が指し示す画像内の領域をバウンディングボックスやセグメンテーションマスクで特定するタスクです。

Visual Groundingには主に2種類のサブタスクがあります。Referring Expression Comprehension(REC)は「テーブルの右端にある青いマグカップ」のような参照表現が指す物体を特定します。Visual Question Answering(VQA)との違いは、答えの根拠となる領域を画像座標として出力する点です。もう1つのPhrase Groundingは、文中の各名詞句と画像内の対応領域を同時にマッピングします。

代表的なモデルとして、GLIP(Grounded Language-Image Pre-training)はObject Detectionをグラウンディングとして統一的に学習し、OFA・Florence-2・Grounding DINOはゼロショットでの強力なグラウンディング能力を示しています。

応用分野はロボットの物体操作(「赤いボールを取って」という指示への対応)、医療画像での病変部位の言語的参照、インタラクティブな画像編集(「空の部分を青く塗り替えて」)、マルチモーダルエージェントの視覚的推論などです。大規模VLMのグラウンディング能力評価は現在も活発な研究テーマです。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る