术语表
用大白话回答每一个关于会说话虚拟形象的问题。
在开始制作 AI 视频时会遇到的术语 — 口型同步、神经语音、照片生成视频等 — 的简明定义。
会说话的虚拟形象
通常由一张照片生成,由 AI 根据选定声音或脚本驱动嘴唇、下颌与表情动画的数字人物。
查看更多 →口型同步
把面部口型动作逐帧对齐到目标音频上,让讲话者在视觉上发出正确的音节。
查看更多 →文本生成视频
把书面脚本变成完整视频的工作流程 — 通常自动生成画外音、为面孔或场景制作动画并完成最终合成。
查看更多 →照片生成视频
从一张静态照片生成动态视频 — 最常见的做法是让被摄主体的面孔说话。
查看更多 →AI 主持人
由 AI 生成的出镜虚拟代言人 — 用于解说视频、产品演示、课程及内部沟通。
查看更多 →声音克隆
通常基于一段短音频样本,合成出听起来像某个特定真人的全新声音。
查看更多 →神经语音
由深度神经网络生成的文本转语音声音,语调和情感比旧式拼接式或共振峰式 TTS 更自然。
查看更多 →AI 配音 (本地化)
把视频自动重新配音为另一种语言,理想情况下还能匹配口型并保留原说话者的声音特征。
查看更多 →深度伪造(Deepfake)
由 AI 替换或驱动人物面孔/声音的合成媒体。基于本人照片并取得同意制作的会说话虚拟形象,是同一底层技术的合法、合伦理用途。
查看更多 →文本转语音(TTS)
把书面文字转为口语音频的技术。现代神经 TTS 生成的声音与真人录音难以区分,是大多数会说话虚拟形象的语音引擎。
查看更多 →AI 视频生成器
无需拍摄,直接从文字提示、脚本、照片或音频等输入生成成片视频文件的工具。会说话虚拟形象生成器是其中最实用的子类之一。
查看更多 →口播视频(Talking-head)
由一个人(或虚拟形象)直接对镜头讲话的视频形式 — 教程、销售触达、课程模块与社交科普的主流格式。
查看更多 →