モデル

Whisper

ウィスパー

一文定義

OpenAIが開発したオープンソースの音声認識モデル。99言語に対応し高精度な文字起こしを無料で利用できる。ローカル実行・API両対応でAI音声処理の標準的存在。

詳細解説

Whisperとは、OpenAIが2022年に公開したオープンソースの汎用音声認識(ASR: Automatic Speech Recognition)モデルです。68万時間のWeb上の多言語音声データで学習されており、99言語の音声認識と翻訳に対応しています。商用の音声認識サービスに匹敵する高精度な文字起こしを無料でローカル実行できるため、AI音声処理における標準的なモデルとして広く普及しています。

技術的特徴として、Whisperは(1)Encoder-Decoderアーキテクチャ:音声をメルスペクトログラムに変換してEncoderに入力し、Decoderがテキストを生成するTransformerベースの構造、(2)マルチタスク学習:音声認識・翻訳・言語識別・タイムスタンプ検出を単一モデルで実行、(3)ロバスト性:背景雑音・アクセント・専門用語に対する高い耐性。学習データの多様性により実世界の音声環境に強い、(4)モデルサイズ:tiny(39M)・base(74M)・small(244M)・medium(769M)・large-v3(1.5B)の5段階を提供しています。

LLMアプリ開発での活用として、(1)議事録・文字起こし:会議・講演・インタビューの音声を高精度でテキスト化、(2)音声チャットボット:Whisper(音声→テキスト)+ LLM(テキスト処理)+ TTS(テキスト→音声)のパイプラインで音声対話AIを構築、(3)コンテンツ制作:ポッドキャスト・動画の字幕自動生成、(4)多言語翻訳:音声を英語テキストに翻訳する機能で多言語コンテンツのアクセシビリティを向上があります。

利用方法として、OpenAI APIのWhisper API、ローカル実行(pip install openai-whisper)、Hugging Face Transformers経由、faster-whisper(CTranslate2による高速化版)、whisper.cpp(C++実装のCPU最適化版)など多様な選択肢があります。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る