物体検出とは？わかりやすく解説

一文定義

物体検出とは、画像内の複数の物体を矩形（バウンディングボックス）で位置検出しながら同時にクラス分類するコンピュータビジョンタスクです。YOLOシリーズが代表的で、自動運転・監視カメラ・小売業で広く活用されています。

詳細解説

物体検出（Object Detection）とは、画像または動画フレームの中に存在する複数の物体を「どこに（位置：バウンディングボックス）」「何が（クラス：犬・車・人等）」という2つの情報とともに同時に出力するコンピュータビジョンタスクです。単純に「何が写っているか」を分類するimage-recognitionよりも高度なタスクです。

物体検出が重要な理由は、現実の多くのシーンには複数の物体が存在しており、その「位置と種類」を同時に把握することで自動運転（障害物検知）・セキュリティカメラ（不審者追跡）・工場自動化（製品・部品の把持）・小売（棚の在庫管理）など高度な自動化が可能になるためです。

代表的なモデルとして、YOLO（You Only Look Once）シリーズ（v1〜v11）がリアルタイム推論の標準的な選択肢となっています。2段階検出器（Faster R-CNN等、精度重視）と1段階検出器（YOLO等、速度重視）のトレードオフが設計上の重要な選択です。近年はDETR（Detection Transformer）などTransformerベースの手法も台頭し、vision-language-modelを使ったオープン語彙物体検出（GroundingDINO等）では事前定義していないクラスも検出できるようになっています。

物体検出

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する