Глоссарий

Синтез речи (TTS)

Технология преобразования текста в аудио. Современный нейронный TTS даёт голоса, близкие к живой записи, и питает большинство говорящих аватаров.

TTS превращает текст и выбранный голос в аудиосигнал. Старый TTS звучал «как робот»; современные модели обучены на сотнях часов речи и дают естественную просодию, дыхание и эмоции.

На vlogme.ai можно выбрать любой TTS-голос, клонировать свой или загрузить своё аудио — движок lip-sync ведёт аватар от выбранного источника звука.

Попробовать TTS-голоса

Связанные термины

Клонирование голоса
Синтез нового голоса, который звучит как конкретный реальный человек — обычно по короткому аудио-семплу.
Нейронный голос (neural voice)
TTS-голос, сгенерированный глубокой нейросетью — с более естественной интонацией и эмоцией, чем у старого конкатенативного или формантного TTS.
Говорящий аватар
Цифровой персонаж — обычно из одного фото — у которого ИИ анимирует губы, челюсть и мимику под выбранный голос или текст.

Связанные термины

Клонирование голоса

Нейронный голос (neural voice)

Говорящий аватар