真人图生视频不只是模型能力问题,更重要的是:你能不能把一张人像、商品图或活动静帧变成足够稳定、可审核、能帮助团队做判断的动态草稿。
Spark Robin 把它当成工作流问题。图片是视觉锚点,动作说明是导演笔记,生成片段是制作前的判断工具,而不是最终成片。视觉身份已经确定时,可以从 /image-to-video 开始。
相关阅读:
快速结论
当你拥有图片使用权、明确审核目标,并且动作要求足够克制时,Spark Robin 更适合做真人图生视频测试。第一版草稿通常只需要一张清晰参考图、一个镜头行为和一个主体动作。
这个工作流适合什么
真人图生视频从人像或人物参考帧开始,再添加运动、镜头、表情变化或环境氛围。它适合创作者简报预览、口播概念、UGC 广告开场规划、美妆穿搭测试、内部提案短片和分镜连续性检查。
它的目的不是伪装成最终制作,而是在投入拍摄、剪辑或 campaign 之前先看到方向是否成立。
先选对参考图
弱参考图会带来弱动态。生成前先检查主体是否清楚、脸部或产品边缘是否锐利、光线是否稳定、分辨率是否足够。
更好的参考图通常具备一个明确主体、清晰眼睛或产品边缘、自然光线、必要时可见肩部或产品形状,并且构图已经接近目标渠道。
尽量避免多人合照、极端裁切、重滤镜、压缩截图,以及脸部、服装或产品形状不明确的图片。
写动作说明,而不是身份小作文
图片已经承载身份。提示词应该描述时间里发生什么。
弱提示词:
一个很漂亮很真实的人,完美脸,高级电影感,高细节,很棒的光线。更好的提示词:
使用上传人像作为身份锚点。主体轻微看向左侧,再自然看回镜头,有自然眨眼和平静表情。镜头缓慢推进,柔和日光,脸部结构稳定,不要突然变焦。第二种写法说明了要动什么、要保护什么,以及该如何判断结果。
更稳的审核流程
- 先用一张参考图。
- 第一版动作要求要小。
- 先生成短草稿,再提高时长或分辨率。
- 审核脸部、手部、产品边缘和背景稳定性。
- 每次只改一个变量。
- 只使用你有权使用的图片。
这样可以让草稿更有用,也减少积分浪费。
人像动态提示词结构
使用上传图片作为身份锚点。主体只做一个轻微动作:[动作]。镜头:[镜头行为]。保持脸部、服装和主要轮廓稳定。[光线/情绪]。避免夸张表情变化。适合第一轮测试的动作包括轻微转头、自然眨眼和微笑、肩部轻微移动、产品轻轻靠近镜头、微风带动头发或布料,以及慢速镜头推进。
什么时候加更多参考图
只有当第二张图能解决具体问题时再添加。
| 需求 | 有用的补充参考 |
|---|---|
| 脸部角度更稳定 | 三分之四角度人像 |
| 服装更连续 | 半身或腰部以上图片 |
| 产品位置更清楚 | 干净产品特写 |
| 镜头节奏 | 所选工作流支持时使用短参考视频 |
更多参考图不一定更好。冲突参考图会降低稳定性。
最后建议
在 Spark Robin 里,图生视频更适合被当成发布审核工作流:清晰参考、克制动作、可见积分成本、每个草稿只回答一个问题。这样才能得到有价值的视频方向,而不是把第一版渲染误当成最终广告资产。

