一文定義
OCR(Optical Character Recognition)とは、画像やスキャン文書に含まれる文字を認識してデジタルテキストに変換する技術です。Document AIの基盤技術で、請求書・契約書・名刺などの自動デジタル化に不可欠です。
詳細解説
OCR(Optical Character Recognition:光学文字認識)とは、印刷物・手書き文字・画像内の文字をコンピュータが認識してデジタルのテキストデータに変換する技術です。スキャナで取り込んだPDF・スマートフォンで撮影した書類・看板の文字など、様々なシーンで文字のデジタル化を自動化します。
OCRが重要な理由は、世界中には膨大な量の紙の書類・印刷物が存在しており、これらをデジタル化することがビジネスのデジタルトランスフォーメーション(DX)の基礎となるためです。請求書の自動処理・契約書のデジタルアーカイブ・名刺管理・レシート管理・古文書のデジタル保存など、幅広い用途があります。
技術的には、従来のルールベースOCRから深層学習ベースのOCRへと進化し、精度が大幅に向上しました。Google Cloud Vision API・Amazon Textract・Microsoft Azure Form Recognizerなどのクラウドサービスや、オープンソースのTesseract OCRが広く使われています。近年はvision-language-modelを使ったマルチモーダルアプローチにより、文字認識だけでなく文書の構造(表・フォーム・見出し)も理解できる高精度なdocument-aiが実現しています。日本語OCRは縦書き・変体仮名・旧字体など独自の課題があります。
参考情報・出典
- ▸Optical character recognition - Wikipedia— Wikipedia(参照日: 2026-02-26)
- ▸Google Cloud Vision API— Google Cloud(参照日: 2026-02-26)