ViT（ビジョントランスフォーマー）とは？わかりやすく解説

一文定義

ViT（Vision Transformer）とは、画像をパッチに分割してTransformerで処理する画像認識アーキテクチャです。CNNを超える性能を示し、GPT-4VやGeminiなどマルチモーダルモデルのビジュアルエンコーダーの基盤技術となっています。

詳細解説

ViT（Vision Transformer）とは、Dosovitskiyらが2020年に発表した、画像をCNNではなくTransformerで処理する画像認識アーキテクチャです。画像を16×16ピクセルのパッチに分割してフラット化し、BERTのように各パッチを「トークン」として扱いTransformerのself-attentionで処理します。

ViTが重要な理由は、それまで画像認識の主流だったCNNを超える性能を示し、「Transformerは言語だけでなくあらゆるデータに応用できる」という新しいパラダイムを確立したためです。特に大規模データセットと大型モデルのスケール時にCNNより優れた性能を示しました。

ViTの発展として、Swin Transformer（階層的な局所アテンションでCNNの強みを取り込む）、DeiT（データ効率化）、MAE（Masked Autoencoders、マスクパッチ予測での自己教師あり学習）などが登場しています。現在のvision-language-model（GPT-4V・Gemini・Claude 3等）はほぼすべてViT系のアーキテクチャをビジュアルエンコーダーとして採用しており、テキストと画像をCLIPやcontrastive-learningで対照学習してからLLMに接続するという設計が一般的です。

参考情報・出典

▸
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale— arXiv / Dosovitskiy et al. / Google Brain (2020)（参照日: 2026-02-26）
▸
Vision transformer - Wikipedia— Wikipedia（参照日: 2026-02-26）

ViT（ビジョントランスフォーマー）

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する