一文定義
テキストを音声に変換する技術(Text-to-Speech)。OpenAI TTS・ElevenLabs・Google Cloud TTS等が代表で、自然な発話品質でAIアシスタントに不可欠。
詳細解説
TTS(Text-to-Speech、テキスト音声合成)とは、テキストデータを自然な音声に変換する技術です。ニューラルネットワークベースのTTSの登場により、従来のロボット的な音声から、人間の発話に近い自然な抑揚・感情表現を持つ音声合成が実現しています。AIアシスタント・有声コンテンツ制作・アクセシビリティ技術などで広く活用されています。
技術の発展として、(1)連結型合成(録音音声の切り貼り)→(2)パラメトリック合成(音声の数学的モデル化)→(3)ニューラルTTS(WaveNet・Tacotron・VITS等のディープラーニングモデル)→(4)大規模LLMベースTTS(感情・スタイル制御が可能)という進化を経ています。
代表的なサービスとして、(1)OpenAI TTS API:6種類の音声(Alloy・Echo・Fable・Onyx・Nova・Shimmer)を提供。高品質で安価なAPIアクセス、(2)ElevenLabs:感情・スタイル・抑揚の細かい制御が可能。声のクローニング(少量サンプルから話者の声を複製)機能が注目、(3)Google Cloud TTS:WaveNet/Neural2音声を提供。多言語・日本語対応、(4)Amazon Polly:AWS統合で低レイテンシのリアルタイム音声合成があります。
AIアバター・音声エージェント・有声コンテンツ制作でのTTSの普及に伴い、声のなりすまし・フィッシング詐欺への悪用対策として、合成音声検出技術(Deepfake Audio Detection)の研究も進んでいます。ElevenLabsは悪用防止のため音声クローニングに使用承諾確認を導入しています。
参考情報・出典
- ▸Text to speech – OpenAI Documentation— OpenAI(参照日: 2026-02-26)
- ▸ElevenLabs – AI Voice Platform— ElevenLabs(参照日: 2026-02-26)