一文定義
音声認識(STT)とは、音声データをテキストに変換するAI技術です。OpenAI Whisperが代表例で、多言語・ノイズ環境に強い特徴を持ちます。
詳細解説
音声認識(Speech-to-Text / STT)とは、マイクや音声ファイルから取得した音声データを、AIモデルを使ってテキスト(文字起こし)に変換する技術です。
STTが注目される理由は、議事録の自動生成・コールセンター応答のテキスト化・音声インターフェース実装など、ビジネス現場での活用範囲が広く、特に大規模言語モデルと組み合わせることで「話しかけるだけでAIが回答する」音声AIシステムを構築できるためです。
代表的なモデルはOpenAIのWhisperで、680,000時間の音声データで学習した多言語対応モデルです。英語・日本語を含む99言語をサポートし、ノイズ環境・アクセント・専門用語にも比較的強い堅牢性を持ちます。APIとして利用するほか、オープンソースモデルとしてローカル実行も可能です。
参考情報・出典
- ▸Robust Speech Recognition via Large-Scale Weak Supervision(Whisper論文)— arXiv / OpenAI(参照日: 2026-02-26)
- ▸OpenAI Whisper API Documentation— OpenAI(参照日: 2026-02-26)
最終更新: 2026-02-26← 用語集一覧へ