実装

音声認識(Speech-to-Text)

スピーチトゥテキスト

一文定義

音声認識(STT)とは、音声データをテキストに変換するAI技術です。OpenAI Whisperが代表例で、多言語・ノイズ環境に強い特徴を持ちます。

詳細解説

音声認識(Speech-to-Text / STT)とは、マイクや音声ファイルから取得した音声データを、AIモデルを使ってテキスト(文字起こし)に変換する技術です。

STTが注目される理由は、議事録の自動生成・コールセンター応答のテキスト化・音声インターフェース実装など、ビジネス現場での活用範囲が広く、特に大規模言語モデルと組み合わせることで「話しかけるだけでAIが回答する」音声AIシステムを構築できるためです。

代表的なモデルはOpenAIのWhisperで、680,000時間の音声データで学習した多言語対応モデルです。英語・日本語を含む99言語をサポートし、ノイズ環境・アクセント・専門用語にも比較的強い堅牢性を持ちます。APIとして利用するほか、オープンソースモデルとしてローカル実行も可能です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る