一文定義
ViT(Vision Transformer)とは、画像をパッチに分割してTransformerで処理する画像認識アーキテクチャです。CNNを超える性能を示し、GPT-4VやGeminiなどマルチモーダルモデルのビジュアルエンコーダーの基盤技術となっています。
詳細解説
ViT(Vision Transformer)とは、Dosovitskiyらが2020年に発表した、画像をCNNではなくTransformerで処理する画像認識アーキテクチャです。画像を16×16ピクセルのパッチに分割してフラット化し、BERTのように各パッチを「トークン」として扱いTransformerのself-attentionで処理します。
ViTが重要な理由は、それまで画像認識の主流だったCNNを超える性能を示し、「Transformerは言語だけでなくあらゆるデータに応用できる」という新しいパラダイムを確立したためです。特に大規模データセットと大型モデルのスケール時にCNNより優れた性能を示しました。
ViTの発展として、Swin Transformer(階層的な局所アテンションでCNNの強みを取り込む)、DeiT(データ効率化)、MAE(Masked Autoencoders、マスクパッチ予測での自己教師あり学習)などが登場しています。現在のvision-language-model(GPT-4V・Gemini・Claude 3等)はほぼすべてViT系のアーキテクチャをビジュアルエンコーダーとして採用しており、テキストと画像をCLIPやcontrastive-learningで対照学習してからLLMに接続するという設計が一般的です。
参考情報・出典
- ▸An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale— arXiv / Dosovitskiy et al. / Google Brain (2020)(参照日: 2026-02-26)
- ▸Vision transformer - Wikipedia— Wikipedia(参照日: 2026-02-26)