ニューラルTTSモデル(Tacotron、FastSpeech、VITSとその後継)は、テキスト、話者ID、スタイルトークンを条件として連続波形として音声を生成します。プロソディ、呼吸、感情が自然で、人間の朗読との差は多くのリスニングテストでサブセカンドです。
通常制御できる属性:ピッチ、速度、言語、アクセント、年齢、感情(穏やか、興奮、悲しみ、プロフェッショナル)。vlogme.aiでは各ニューラル音声がトーキングアバターパイプラインと連動し、同じ感情が声と顔の両方を駆動します。
用語集
ディープニューラルネットワークで生成されるTTS音声。古い連結合成やフォルマント合成より自然なイントネーションと感情を出せます。
ニューラルTTSモデル(Tacotron、FastSpeech、VITSとその後継)は、テキスト、話者ID、スタイルトークンを条件として連続波形として音声を生成します。プロソディ、呼吸、感情が自然で、人間の朗読との差は多くのリスニングテストでサブセカンドです。
通常制御できる属性:ピッチ、速度、言語、アクセント、年齢、感情(穏やか、興奮、悲しみ、プロフェッショナル)。vlogme.aiでは各ニューラル音声がトーキングアバターパイプラインと連動し、同じ感情が声と顔の両方を駆動します。