一文定義
画像キャプション生成とは、画像の内容を自然言語で説明するテキストを自動生成するタスクで、CLIPやViTなどのビジョンモデルとLLMを組み合わせ、アクセシビリティ・画像検索・医療画像説明に応用されます。
詳細解説
画像キャプション生成(Image Captioning)とは、入力画像を解析し、その内容・シーン・物体・関係性を自然言語のテキストとして自動的に生成するコンピュータビジョンとNLPの融合タスクです。
技術的な仕組みは、視覚エンコーダー(CNNまたはViT)で画像特徴量を抽出し、言語デコーダー(LSTM、GPT、またはLLM)でテキストを生成します。モダンなアーキテクチャでは、CLIPのようなコントラスト学習で視覚・言語の表現空間を整合させた後、クロスアテンションで画像特徴をLLMに注入します。代表的なモデルにBLIP-2(Bootstrapping Language-Image Pre-training)、LLaVA(Large Language and Vision Assistant)、CogVLMなどがあります。
応用分野は多様です。Webのimg要素のalt属性自動生成によるアクセシビリティ向上、画像ファイルの検索可能なメタデータ生成、放射線画像・病理画像の医師向け報告書補助、Eコマースの商品画像説明文自動生成、ドローン・自動運転車のシーン理解などがあります。
評価指標にはBLEU・ROUGE・CIDErなどが使われますが、人間の評価との乖離が指摘されており、LLM-as-Judgeによる評価も普及しています。
参考情報・出典
- ▸Show, Attend and Tell: Neural Image Caption Generation with Visual Attention— arXiv / Xu et al.(参照日: 2026-02-26)
- ▸BLIP-2: Bootstrapping Language-Image Pre-training— arXiv / Salesforce Research(参照日: 2026-02-26)