一文定義
音声をテキストに変換する自動音声認識技術(Automatic Speech Recognition)。WhisperやGoogle Speech-to-Textが代表例で音声インターフェースの基盤を担う。
詳細解説
ASR(Automatic Speech Recognition、自動音声認識)とは、マイクや録音ファイルから入力された人間の音声をテキストデータに変換する技術です。Siri・GoogleアシスタントなどのAIアシスタント、音声入力・字幕生成・会議録起こし・コールセンター分析など、多岐にわたる用途で活用されています。
技術の発展として、従来の隠れマルコフモデル(HMM)ベースのASRから、ディープラーニング(CNN・RNN・CTC)を経て、2022年にOpenAIが発表したWhisperがTransformerベースのエンドツーエンドASRとして高精度・多言語対応を実現し業界標準に近い地位を確立しました。
代表的なサービス・モデルとして、(1)OpenAI Whisper:680K時間の多言語音声で学習したオープンソースモデル。99言語対応・ノイズ耐性が高く無料で利用可能、(2)Google Cloud Speech-to-Text:リアルタイムストリーミング認識・話者識別(Diarization)・単語のタイムスタンプに対応、(3)Amazon Transcribe:AWS統合・PII(個人情報)自動検出機能付き、(4)Microsoft Azure Speech:カスタムモデル訓練対応があります。
日本語ASRの課題として、同音異義語(「橋」「箸」)・文節境界の曖昧さ・話し言葉と書き言葉のギャップが精度に影響します。ビジネス用途では業種特有の専門用語・固有名詞のカスタム語彙登録により精度向上が可能です。
LLMとの組み合わせにより、ASR→LLMによる誤認識修正・要約・アクション抽出という「音声エージェントパイプライン」の構築が一般化しています。
参考情報・出典
- ▸Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)— arXiv / Radford et al. (2022)(参照日: 2026-02-26)
- ▸OpenAI Speech to text API— OpenAI(参照日: 2026-02-26)