Lip-sync — это мост между звуком и лицом. Модель берёт речь, выделяет последовательность фонем (минимальных звуковых единиц — /а/, /б/, /th/), сопоставляет каждой фонеме форму рта (висему) и пересобирает лицо для каждого кадра.
Хороший lip-sync — это не только форма рта: учитываются раскрытие челюсти, видимость языка, округление губ, паузы между словами. Плохой lip-sync выглядит «резиновым» или шевелит ртом в тишине.