実装

音声認識（Speech-to-Text）

スピーチトゥテキスト

一文定義

音声認識（STT）とは、音声データをテキストに変換するAI技術です。OpenAI Whisperが代表例で、多言語・ノイズ環境に強い特徴を持ちます。

詳細解説

音声認識（Speech-to-Text / STT）とは、マイクや音声ファイルから取得した音声データを、AIモデルを使ってテキスト（文字起こし）に変換する技術です。

STTが注目される理由は、議事録の自動生成・コールセンター応答のテキスト化・音声インターフェース実装など、ビジネス現場での活用範囲が広く、特に大規模言語モデルと組み合わせることで「話しかけるだけでAIが回答する」音声AIシステムを構築できるためです。

代表的なモデルはOpenAIのWhisperで、680,000時間の音声データで学習した多言語対応モデルです。英語・日本語を含む99言語をサポートし、ノイズ環境・アクセント・専門用語にも比較的強い堅牢性を持ちます。APIとして利用するほか、オープンソースモデルとしてローカル実行も可能です。

参考情報・出典

▸
Robust Speech Recognition via Large-Scale Weak Supervision（Whisper論文）— arXiv / OpenAI（参照日: 2026-02-26）
▸
OpenAI Whisper API Documentation— OpenAI（参照日: 2026-02-26）

最終更新: 2026-02-26← 用語集一覧へ

関連用語

自然言語処理（NLP）

しぜんげんごしょり（エヌエルピー）

マルチモーダル

マルチモーダル

ディープラーニング（深層学習）

ディープラーニング（しんそうがくしゅう）

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る

無料相談を申し込む