実装

物体検出

ぶったいけんしゅつ

一文定義

物体検出とは、画像内の複数の物体を矩形(バウンディングボックス)で位置検出しながら同時にクラス分類するコンピュータビジョンタスクです。YOLOシリーズが代表的で、自動運転・監視カメラ・小売業で広く活用されています。

詳細解説

物体検出(Object Detection)とは、画像または動画フレームの中に存在する複数の物体を「どこに(位置:バウンディングボックス)」「何が(クラス:犬・車・人等)」という2つの情報とともに同時に出力するコンピュータビジョンタスクです。単純に「何が写っているか」を分類するimage-recognitionよりも高度なタスクです。

物体検出が重要な理由は、現実の多くのシーンには複数の物体が存在しており、その「位置と種類」を同時に把握することで自動運転(障害物検知)・セキュリティカメラ(不審者追跡)・工場自動化(製品・部品の把持)・小売(棚の在庫管理)など高度な自動化が可能になるためです。

代表的なモデルとして、YOLO(You Only Look Once)シリーズ(v1〜v11)がリアルタイム推論の標準的な選択肢となっています。2段階検出器(Faster R-CNN等、精度重視)と1段階検出器(YOLO等、速度重視)のトレードオフが設計上の重要な選択です。近年はDETR(Detection Transformer)などTransformerベースの手法も台頭し、vision-language-modelを使ったオープン語彙物体検出(GroundingDINO等)では事前定義していないクラスも検出できるようになっています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る