一文定義
音声合成(TTS)とは、テキストを自然な音声に変換するAI技術です。OpenAI TTS・ElevenLabsなどが代表的で、読み上げ・音声AIに活用されます。
詳細解説
音声合成(Text-to-Speech / TTS)とは、入力されたテキストをAIモデルが処理し、人間の声に近い自然な音声として出力する技術です。
TTSが重要な理由は、視覚障害者向けのアクセシビリティ向上から、音声インターフェース・ポッドキャスト自動生成・カスタマーサポートの自動化まで、幅広いユースケースがあるためです。特に最新のニューラルTTSはイントネーション・感情・話速のバリエーションが豊かで、従来のロボット音声とは大きく異なります。
主要サービスとして、OpenAI TTS API(alloy・echo・fable等の音声スタイルを選択可能)、ElevenLabs(声のクローニングや感情制御が可能)などがあります。音声合成と音声認識(STT)を組み合わせることで、音声対話型AIエージェントを構築できます。
参考情報・出典
- ▸OpenAI Text-to-Speech API Documentation— OpenAI(参照日: 2026-02-26)
- ▸ElevenLabs Documentation— ElevenLabs(参照日: 2026-02-26)
最終更新: 2026-02-26← 用語集一覧へ