用語集

ニューラル音声

ディープニューラルネットワークで生成されるTTS音声。古い連結合成やフォルマント合成より自然なイントネーションと感情を出せます。

ニューラルTTSモデル(Tacotron、FastSpeech、VITSとその後継)は、テキスト、話者ID、スタイルトークンを条件として連続波形として音声を生成します。プロソディ、呼吸、感情が自然で、人間の朗読との差は多くのリスニングテストでサブセカンドです。

通常制御できる属性:ピッチ、速度、言語、アクセント、年齢、感情(穏やか、興奮、悲しみ、プロフェッショナル)。vlogme.aiでは各ニューラル音声がトーキングアバターパイプラインと連動し、同じ感情が声と顔の両方を駆動します。

関連用語