モデル

ViT(ビジョントランスフォーマー)

ビジョントランスフォーマー

一文定義

ViT(Vision Transformer)とは、画像をパッチに分割してTransformerで処理する画像認識アーキテクチャです。CNNを超える性能を示し、GPT-4VやGeminiなどマルチモーダルモデルのビジュアルエンコーダーの基盤技術となっています。

詳細解説

ViT(Vision Transformer)とは、Dosovitskiyらが2020年に発表した、画像をCNNではなくTransformerで処理する画像認識アーキテクチャです。画像を16×16ピクセルのパッチに分割してフラット化し、BERTのように各パッチを「トークン」として扱いTransformerのself-attentionで処理します。

ViTが重要な理由は、それまで画像認識の主流だったCNNを超える性能を示し、「Transformerは言語だけでなくあらゆるデータに応用できる」という新しいパラダイムを確立したためです。特に大規模データセットと大型モデルのスケール時にCNNより優れた性能を示しました。

ViTの発展として、Swin Transformer(階層的な局所アテンションでCNNの強みを取り込む)、DeiT(データ効率化)、MAE(Masked Autoencoders、マスクパッチ予測での自己教師あり学習)などが登場しています。現在のvision-language-model(GPT-4V・Gemini・Claude 3等)はほぼすべてViT系のアーキテクチャをビジュアルエンコーダーとして採用しており、テキストと画像をCLIPやcontrastive-learningで対照学習してからLLMに接続するという設計が一般的です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る