photo-to-video 模型会分析照片中的面孔,提取 3D 感知表征,然后逐帧重新渲染面部以匹配音频。原本的光照、背景与身份保持不变,而嘴、下颌、眼睛及细微头部动作则被合成生成。
适用于人像、AI 生成的面孔、历史照片乃至插画。两点提醒:分辨率极低的照片,以及被头发、手或眼镜部分遮挡的脸,效果会变差。
术语表
从一张静态照片生成动态视频 — 最常见的做法是让被摄主体的面孔说话。
photo-to-video 模型会分析照片中的面孔,提取 3D 感知表征,然后逐帧重新渲染面部以匹配音频。原本的光照、背景与身份保持不变,而嘴、下颌、眼睛及细微头部动作则被合成生成。
适用于人像、AI 生成的面孔、历史照片乃至插画。两点提醒:分辨率极低的照片,以及被头发、手或眼镜部分遮挡的脸,效果会变差。