术语表

声音克隆

通常基于一段短音频样本,合成出听起来像某个特定真人的全新声音。

声音克隆模型学习目标声音的音色、节奏、口音与情绪「指纹」。现代系统只需 10–30 秒干净语音,就能生成可朗读任意新文本的克隆。

用得好,这是创作者的超能力:把自己的声音本地化为 30+ 种语言、无需重录就能更新常青视频、为无障碍保留声音。用得不当则有深度伪造风险 — 务必取得声音所有者的同意。

相关术语