vlogme.ai

Глоссарий

Нейронный голос (neural voice)

TTS-голос, сгенерированный глубокой нейросетью — с более естественной интонацией и эмоцией, чем у старого конкатенативного или формантного TTS.

Нейронные TTS-модели (Tacotron, FastSpeech, VITS и их преемники) генерируют речь как непрерывный сигнал, обусловленный текстом, идентичностью спикера и стилевыми токенами. Просодия, дыхание и эмоция получаются естественными — отрыв от человеческой озвучки в большинстве тестов уже субсекундный.

Что обычно можно контролировать: высоту, скорость, язык, акцент, возраст, эмоцию (спокойствие, возбуждение, грусть, профессионализм). В vlogme.ai каждый нейронный голос связан с пайплайном говорящего аватара — одна и та же эмоция управляет и голосом, и лицом.

Связанные термины