一文定義
コンピュータビジョンとは、画像・動画から情報を抽出・理解するAI技術の総称です。画像認識・物体検出・セグメンテーション・OCRを包含し、自動運転・医療・製造・小売など幅広い産業に応用されています。
詳細解説
コンピュータビジョン(Computer Vision、CV)とは、デジタル画像・動画・映像からコンピュータが視覚情報を自動的に取得・解析・理解するAI技術の総称です。人間の視覚システムをコンピュータで再現・超越することを目指した研究分野であり、深層学習の発展により急速に実用化が進みました。
コンピュータビジョンが重要な理由は、現実世界の情報の多くが視覚情報として存在しており、それを自動処理できることで多様な産業の自動化が可能になるためです。工場の外観検査(製造)・手術支援(医療)・レジなし決済(小売)・信号無視検知(公共安全)・顔認証(セキュリティ)など、従来は人間の目が不可欠だったタスクをAIが代替しています。
主要タスクとして、image-recognition(画像分類)、object-detection(物体検出・位置推定)、semantic-segmentation(ピクセルレベルの分類)、顔認識、ポーズ推定、光学文字認識(ocr)、深度推定などがあります。技術的な基盤はconvolutional-neural-networkからvision-transformerへと進化し、現在ではvision-language-modelによって「画像に関する自然言語での質問・指示」も処理できるようになっています。
参考情報・出典
- ▸Computer vision - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸Computer Vision: Algorithms and Applications (2nd ed.)— Szeliski (2022) / Springer(参照日: 2026-02-26)