一文定義
画像認識とは、画像に写っている物体・シーン・文字を自動的に識別するAI技術です。CNNやVision Transformerによる深層学習で急速に精度が向上し、医療診断・製造検査・自動運転など幅広い産業に応用されています。
詳細解説
画像認識(Image Recognition)とは、デジタル画像の内容(物体・人物・シーン・テキスト等)をコンピュータが自動的に識別・分類するAI技術です。コンピュータビジョン(CV)の中心的タスクであり、「この画像には猫が写っている」「この胸部X線は異常なし」のような判断を行います。
画像認識が重要な理由は、視覚情報を自動処理できることで、製造業の外観検査(目視検査の自動化)・医療画像診断支援(放射線画像・病理画像)・小売業(棚卸し・レジなし決済)・農業(作物の病気検出)など、人間の目が必要だった多くの作業を自動化できるためです。
技術的な変遷として、ルールベース→統計モデル→CNNによる深層学習(2012年AlexNetで革命)→Vision Transformer(ViT、2020年)という進化があります。転移学習(transfer-learning)の普及により、ImageNetで事前学習したモデルを少量のドメイン固有データでfine-tuningするアプローチが定着しています。現在はvision-language-modelによって「この画像を説明して」「この写真で何が問題か教えて」という自然言語インターフェースでの画像認識も一般化しています。評価benchmarkとしてはImageNet、CIFAR-10/100が代表的です。
参考情報・出典
- ▸ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)— NeurIPS / Krizhevsky et al. (2012)(参照日: 2026-02-26)
- ▸Image recognition - Wikipedia— Wikipedia(参照日: 2026-02-26)