一文定義
物体検出とは、画像内の複数の物体を矩形(バウンディングボックス)で位置検出しながら同時にクラス分類するコンピュータビジョンタスクです。YOLOシリーズが代表的で、自動運転・監視カメラ・小売業で広く活用されています。
詳細解説
物体検出(Object Detection)とは、画像または動画フレームの中に存在する複数の物体を「どこに(位置:バウンディングボックス)」「何が(クラス:犬・車・人等)」という2つの情報とともに同時に出力するコンピュータビジョンタスクです。単純に「何が写っているか」を分類するimage-recognitionよりも高度なタスクです。
物体検出が重要な理由は、現実の多くのシーンには複数の物体が存在しており、その「位置と種類」を同時に把握することで自動運転(障害物検知)・セキュリティカメラ(不審者追跡)・工場自動化(製品・部品の把持)・小売(棚の在庫管理)など高度な自動化が可能になるためです。
代表的なモデルとして、YOLO(You Only Look Once)シリーズ(v1〜v11)がリアルタイム推論の標準的な選択肢となっています。2段階検出器(Faster R-CNN等、精度重視)と1段階検出器(YOLO等、速度重視)のトレードオフが設計上の重要な選択です。近年はDETR(Detection Transformer)などTransformerベースの手法も台頭し、vision-language-modelを使ったオープン語彙物体検出(GroundingDINO等)では事前定義していないクラスも検出できるようになっています。
参考情報・出典
- ▸You Only Look Once: Unified, Real-Time Object Detection (YOLO)— arXiv / Redmon et al. (2016)(参照日: 2026-02-26)
- ▸Object detection - Wikipedia— Wikipedia(参照日: 2026-02-26)