ASR（自動音声認識）とは？わかりやすく解説

一文定義

音声をテキストに変換する自動音声認識技術（Automatic Speech Recognition）。WhisperやGoogle Speech-to-Textが代表例で音声インターフェースの基盤を担う。

詳細解説

ASR（Automatic Speech Recognition、自動音声認識）とは、マイクや録音ファイルから入力された人間の音声をテキストデータに変換する技術です。Siri・GoogleアシスタントなどのAIアシスタント、音声入力・字幕生成・会議録起こし・コールセンター分析など、多岐にわたる用途で活用されています。

技術の発展として、従来の隠れマルコフモデル（HMM）ベースのASRから、ディープラーニング（CNN・RNN・CTC）を経て、2022年にOpenAIが発表したWhisperがTransformerベースのエンドツーエンドASRとして高精度・多言語対応を実現し業界標準に近い地位を確立しました。

代表的なサービス・モデルとして、(1)OpenAI Whisper：680K時間の多言語音声で学習したオープンソースモデル。99言語対応・ノイズ耐性が高く無料で利用可能、(2)Google Cloud Speech-to-Text：リアルタイムストリーミング認識・話者識別（Diarization）・単語のタイムスタンプに対応、(3)Amazon Transcribe：AWS統合・PII（個人情報）自動検出機能付き、(4)Microsoft Azure Speech：カスタムモデル訓練対応があります。

日本語ASRの課題として、同音異義語（「橋」「箸」）・文節境界の曖昧さ・話し言葉と書き言葉のギャップが精度に影響します。ビジネス用途では業種特有の専門用語・固有名詞のカスタム語彙登録により精度向上が可能です。

LLMとの組み合わせにより、ASR→LLMによる誤認識修正・要約・アクション抽出という「音声エージェントパイプライン」の構築が一般化しています。

参考情報・出典

▸
Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)— arXiv / Radford et al. (2022)（参照日: 2026-02-26）
▸
OpenAI Speech to text API— OpenAI（参照日: 2026-02-26）

ASR（自動音声認識）

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する