一文定義
ビジュアルグラウンディングとは、自然言語の表現が指す画像内の領域・物体を特定するタスクで、「赤い車の左にある木」のような参照表現から画像内の対応領域を見つけ、マルチモーダルモデルとロボティクスで重要です。
詳細解説
ビジュアルグラウンディング(Visual Grounding)とは、自然言語の表現(参照表現)と画像を入力とし、その言語表現が指し示す画像内の領域をバウンディングボックスやセグメンテーションマスクで特定するタスクです。
Visual Groundingには主に2種類のサブタスクがあります。Referring Expression Comprehension(REC)は「テーブルの右端にある青いマグカップ」のような参照表現が指す物体を特定します。Visual Question Answering(VQA)との違いは、答えの根拠となる領域を画像座標として出力する点です。もう1つのPhrase Groundingは、文中の各名詞句と画像内の対応領域を同時にマッピングします。
代表的なモデルとして、GLIP(Grounded Language-Image Pre-training)はObject Detectionをグラウンディングとして統一的に学習し、OFA・Florence-2・Grounding DINOはゼロショットでの強力なグラウンディング能力を示しています。
応用分野はロボットの物体操作(「赤いボールを取って」という指示への対応)、医療画像での病変部位の言語的参照、インタラクティブな画像編集(「空の部分を青く塗り替えて」)、マルチモーダルエージェントの視覚的推論などです。大規模VLMのグラウンディング能力評価は現在も活発な研究テーマです。
参考情報・出典
- ▸GLIP: Grounded Language-Image Pre-training— arXiv / Microsoft Research(参照日: 2026-02-26)
- ▸Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks— arXiv / Microsoft(参照日: 2026-02-26)