リップシンクは音声と顔をつなぐ橋です。モデルは音声波形から音素列(/a/、/b/、/th/ などの最小単位)を抽出し、各音素に対応する口形(ビセム)を割り当て、フレームごとに顔を再生成します。
良いリップシンクは口の形だけでなく、顎の開き、舌の見え方、唇の丸まり、自然な間も含みます。悪いリップシンクは「ゴム」のように見えたり、無音時に口が動いたりします。
用語集
顔の口の動きを目標音声に1フレーム単位で合わせ、話者が正しい音を視覚的に発音しているように見せること。
リップシンクは音声と顔をつなぐ橋です。モデルは音声波形から音素列(/a/、/b/、/th/ などの最小単位)を抽出し、各音素に対応する口形(ビセム)を割り当て、フレームごとに顔を再生成します。
良いリップシンクは口の形だけでなく、顎の開き、舌の見え方、唇の丸まり、自然な間も含みます。悪いリップシンクは「ゴム」のように見えたり、無音時に口が動いたりします。