从闪烁到连贯:时间一致性的进化
AI 视频如何征服它最大的敌人:帧间不稳定性。从光流修复到 Seedance 2.0 原生连贯性的技术之旅。
发布于 2026-02-09
从闪烁到连贯:时间一致性的进化
时间一致性瘟疫
"40 多岁的优雅女性,银发,海军蓝职业套装,走过企业大堂。"
提示词完美。第一帧锐利、专业——完全符合客户对高管辅导宣传的需求。
但点击生成后:
第 1-12 帧:她自信地走着,银发闪闪发光。 第 13-24 帧:银发变成了金色。 第 25-36 帧:金色变深成棕色,西装失去了质感。 第 37-48 帧:她看起来完全像另一个人。
这就是"闪烁"——2023 年 AI 视频的时间一致性瘟疫。衣服纹理变化、灯光莫名其妙地改变、角色面部在 4 秒内变成三种不同身份。第二次尝试:她的脸到第 40 帧老了二十岁。第三次尝试:背景大堂变成了医院走廊。
创作者们在"生成并祈祷"循环中花费数小时。有时幸运,大多数时候交付有明显缺陷的内容,希望客户不会注意到。他们总是注意到。
演变时间线
2019-2020:逐帧的疯狂
早期视频合成将视频视为独立图像的序列。将图像生成模型应用于第 1 帧。然后第 2 帧。然后第 3 帧。结果?闪烁的混乱。每帧单独看都是连贯的。放在一起,就是噩梦。
研究人员尝试了基本解决方案:光流来扭曲前一帧、简单的时间平滑、帧混合。这些对轻微运动有帮助,但在复杂场景中失败。根本问题依然存在:图像模型不理解时间。
2021-2022:3D 卷积时代
突破来自于 3D 卷积——将 2D 卷积的空间理解扩展到时间维度。模型现在可以将小块视频(8-16 帧)作为统一体积处理,而不是独立图像。
Google AI DeepMind 在 2021 年的时间周期一致性(TCC)研究表明,模型可以学习跨帧的语义对应关系。早期视频扩散模型开始在其架构中纳入时间层。闪烁减少了——但没有消失。
2023:潜在扩散爆发
当 Stable Diffusion 在 2022-2023 年走红时,每个人都试图将其适配到视频。结果……有问题。潜在扩散模型(LDM)擅长图像,但在时间连贯性上挣扎。每帧在潜在空间中生成,小的变化放大成可见的闪烁。
创作者开发了复杂的变通方法:
- 网格法:在同一潜在空间中同时生成多个关键帧
- ControlNet 引导:使用姿势或深度图来强制执行一致性
- TokenFlow 技术:跨帧传播潜在特征
- 后处理:去闪烁滤镜、时间平滑、光流稳定
这些有帮助。但它们是子弹伤口上的创可贴。底层模型仍然将时间视为事后考虑。
2024:基于 Transformer 的连贯性
视频生成转向 Transformer 架构改变了游戏规则。注意力机制可以将任何帧与任何其他帧关联,而不是卷积处理局部块。视频扩散 Transformer(VDT)等模型展示了显著改进的时间连贯性。
关键创新包括:
- 循环潜在传播:跨生成步骤保持状态
- 光流引导注意力:使用运动信息引导特征传播
- 多帧调节:基于多个前一帧生成新帧
闪烁并没有消失,但正在消退。
2025:Seedance 2.0 原生连贯性
Seedance 2.0 在架构层面处理时间连贯性。双分支扩散 Transformer 不将时间视为需要解决的问题——它将时间视为数据的固有维度。
Seedance 2.0:连贯性架构
原生时间建模如何工作
Seedance 2.0 通过几种机制实现时间连贯性:
-
统一时空注意力:模型不是先处理空间再处理时间(或反之),而是同时关注两个维度。每帧中的每个像素通过学习的注意力模式与每帧中的每个其他像素相关联。
-
时间增强:在训练期间,模型以受控的时间扰动看到相同的序列——速度变化、帧丢失、小时间偏移。它了解到物体会持续存在、运动是连续的,世界遵循物理规律。
-
双分支处理:通过将视频和音频分离到专用分支,每个分支可以完全专注于其领域。视频分支拥有专门用于视觉时间连贯性的计算预算和参数容量。
-
角色一致性:一种专门的机制(Character Consistency)在帧之间保持身份,确保面部、服装和关键特征在复杂运动中保持稳定。
对比:一致性质量
| 指标 | 2023 LDM 时代 | 2024 Transformer 时代 | Seedance 2.0 (2025) |
|---|---|---|---|
| 面部身份漂移 | 高(2-3 秒内可见) | 中等(5-8 秒内可见) | 低(15 秒以上稳定) |
| 背景稳定性 | 差(持续纹理变化) | 好(微小变化) | 优秀(锁定) |
| 灯光一致性 | 差(闪烁常见) | 好(逐渐变化) | 优秀(稳定) |
| 运动连贯性 | 中等(不自然物理) | 好(改进的物理) | 优秀(自然) |
| 需要后处理 | 需要重度去闪烁 | 轻微平滑 | 极少到无 |
这对创作者意味着什么
实际影响是变革性的:
- 角色驱动叙事:你的主角从第 1 帧到第 360 帧看起来是同一个人
- 一致的环境:背景保持稳定,实现适当的场景建立
- 可信的物理:物体自然地移动和互动,没有早期 AI 视频的"漂浮"感
- 减少迭代:生成一次,使用它。不再有"生成并祈祷"。
真实示例
考虑一个行走序列——时间一致性的经典测试。
早期 LDM 尝试(2023):到第 8 步,衣服纹理已经改变。到第 20 步,背景已经变形。到第 40 步,角色无法识别。总可用帧数:可能 24 帧。
Seedance 2.0(2025):角色行走 15 秒。服装保持织物纹理和灯光响应。背景保持一致。面部保持可识别。脚部放置遵循自然物理。整个片段都可使用。
同样的提示。不同的架构。不同的世界。
你可以立即行动
你的第一步
找到你以前最糟糕的闪烁片段。那个一切都出错的部分。现在在 Seedance 2.0 中尝试相同的提示:
- 生成一个带有移动主体的 10 秒片段
- 逐帧观看(使用你编辑软件的箭头键)
- 注意以前的工具会在哪里失败
- 观察现在什么保持一致
差异不是微妙的。这是业余和专业之间的区别。
最大一致性的提示模板
主体:[清晰的特定描述,带有定义特征]
主体修饰词:[特定服装、发型、显著标记]
运动:[连续、自然的运动描述]
环境:[具有固定元素的明确背景]
灯光:[特定、一致的灯光设置]
物理:[真实世界的物理互动]
一致性优先级:高
时长:10-15 秒
示例:
"短卷黑发的年轻男子,细银框眼镜,橄榄绿夹克,
左眉上方有独特的疤痕,走过有可识别喷泉的城市公园,
左侧下午金色时段灯光,投射一致的阴影,
自然的步态和正确的脚部放置,地面上的落叶除了风之外保持静止,
10 秒,16:9"
未来 12 个月
时间一致性已经"解决"了基本场景。前沿现在转向:
- 多场景一致性:角色在不同位置和灯光下看起来相同
- 长片稳定性:60 秒片段无退化
- 交互式一致性:保持连贯性的实时生成
- 风格锁定序列:具有统一视觉处理的整部电影
闪烁已死。动态影像万岁。
系列导航:
- 上一篇:E02: 从 4 秒到 15 秒:时长限制的突破
- 下一篇:E04: 从静音到交响:音频原生的革命 →
本文是 Seedance 2.0 Masterclass:内容进化系列的一部分。
