一文定義
CNNとは、局所フィルタ(畳み込み層)を使って画像の特徴を階層的に抽出するニューラルネットワークです。画像分類・物体検出の主要アーキテクチャで、VisionTransformerへの移行後も医療・製造分野で広く使われています。
詳細解説
CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)とは、画像処理に特化した「畳み込み層(Convolutional Layer)」を持つニューラルネットワークです。小さなフィルタ(カーネル)を画像全体にスライドさせながら適用することで、エッジ・テクスチャ・形状などの局所的特徴を階層的に抽出します。
CNNが重要な理由は、2012年のAlexNet(ImageNetでのエラー率を劇的に改善)がCNNの有効性を証明して以来、画像認識AIの中核技術となってきたためです。LeNet・AlexNet・VGG・ResNet・EfficientNetと進化し、医療画像診断・顔認識・自動運転・製造業の外観検査など多様な産業用途に採用されました。
技術的な特徴として、重み共有(同じフィルタを画像全体に適用することでパラメータを大幅削減)、局所受容野(近傍ピクセルのみを考慮)、プーリング層(次元削減・空間不変性の獲得)があります。2020年代にはTransformerベースのVision Transformer(ViT)が画像認識でも高性能を示しており、大規模モデルではViTがCNNに取って代わりつつあります。ただしCNNは計算効率・解釈可能性の面でまだ優位性を持つ分野があり、vision-language-modelのビジュアルエンコーダーとしても使われています。
参考情報・出典
- ▸ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)— NeurIPS / Krizhevsky et al. (2012)(参照日: 2026-02-26)
- ▸Convolutional neural network - Wikipedia— Wikipedia(参照日: 2026-02-26)