术语表

神经语音

由深度神经网络生成的文本转语音声音,语调和情感比旧式拼接式或共振峰式 TTS 更自然。

神经 TTS 模型(Tacotron、FastSpeech、VITS 及其后继)以文本、说话者身份和风格令牌为条件,生成连续波形语音。语调、呼吸与情感都很自然 — 在多数听感测试中,与真人朗读的差距已是亚秒级。

常见可控属性:音调、语速、语言、口音、年龄与情感(平静、兴奋、悲伤、专业)。在 vlogme.ai 中,每个神经语音都与会说话的虚拟形象管线绑定,同一种情感同时驱动声音与面部。

相关术语