TTSはテキストとターゲット音声を波形にマッピングします。初期のTTSはロボット的でしたが、現代のシステムは数百時間の人間音声で学習した深層ニューラルネットを使い、自然な韻律、呼吸、感情を生成します。
vlogme.aiでは任意のTTS音声を選択、自分の音声をクローン、あるいは音声をアップロード可能 — リップシンクエンジンが選択した音源からアバターを駆動します。
用語集
テキストを音声に変換する技術。現代のニューラルTTSは人間の録音と区別がつかない声を生成し、ほとんどのトーキングアバターの音声エンジンとなっています。
TTSはテキストとターゲット音声を波形にマッピングします。初期のTTSはロボット的でしたが、現代のシステムは数百時間の人間音声で学習した深層ニューラルネットを使い、自然な韻律、呼吸、感情を生成します。
vlogme.aiでは任意のTTS音声を選択、自分の音声をクローン、あるいは音声をアップロード可能 — リップシンクエンジンが選択した音源からアバターを駆動します。