Бывает два варианта text-to-video. Первый — генерация целых сцен с нуля (люди, помещения, товары); это пока медленно и дорого. Второй, гораздо более практичный, — генерация говорящего аватара: фиксированное лицо озвучивает ваш текст выбранным голосом и языком.
Аватарный text-to-video быстрый (минуты, не часы), дешёвый и идеален для туториалов, продуктовых обзоров, курсов и внутреннего обучения, где нужен ведущий, а не голливудская сцена.