Spark Robin 人像一致性指南：减少图生视频脸漂

2026/04/05

什么是人像一致性

在 Spark Robin 中，人像一致性指同一个主体在生成片段里保持可识别。对人物来说，包括脸型、发型、表情范围、服装和身体语言。对产品来说，包括形状、logo 位置、颜色、材质和比例。

常见原因都很实际：参考图模糊或滤镜太重、提示词要求动作太多、镜头运动过于激烈、多张参考图互相冲突、时长超过概念能承受的范围，或者提示词描述泛泛美感而不是具体运动。

每张参考图都应该有明确任务。

如果两张参考图互相矛盾，模型需要在冲突中平均，稳定性会下降。

可以使用直接约束：使用上传图片作为身份锚点、保持脸部结构稳定、保持同一套服装和轮廓、只允许一个轻微表情变化、固定镜头缓慢推进、不要突然变焦或大幅转头。

避免在同一个草稿里同时要求跑动、旋转、大笑、挥手、环绕镜头和光线变化。

这比写一段超长提示词慢一些，但通常比反复失败的长渲染更省积分。

更好的人像一致性来自干净参考图和更小的决策。Spark Robin 最有用的方式，是让每个草稿只测试一个动态问题，同时保护最重要的视觉身份。

Spark Robin Team