术语表

会说话的虚拟形象

通常由一张照片生成,由 AI 根据选定声音或脚本驱动嘴唇、下颌与表情动画的数字人物。

会说话的虚拟形象是一种由 AI 生成的视频主持人。你提供一张面孔(照片、生成的肖像或库存形象)和一段音频(克隆声音、TTS 或上传录音),模型就会输出一段该面孔以逼真口型同步、头部动作和微表情说出该音频的视频。

它被广泛用于教育内容、营销视频、销售触达、产品引导等任何拍摄真人主持成本过高或速度过慢的场景。

相关术语