seedance

evolution

tutorial-series

temporal-consistency

flickering

从闪烁到连贯：时间一致性的演变

AI视频如何征服了它最大的敌人：帧间不稳定性。从光学流黑客到Seedance 2.0原生连贯的技术之旅。

发布于 2026-02-09

从闪烁到连贯：时间一致性的演变

时间一致性瘟疫

"优雅的40多岁女士，银色头发，深蓝色权力套装，穿过公司大厅。"

这个提示是完美的。第一帧很清晰、专业——正是这位客户想要的管理教练促销视频。

但在点击生成后：

第1-12帧：她自信地走着，银色头发在光线下闪闪发光。第13-24帧：银色头发变成了金色。第25-36帧：金色变暗成棕色，套装失去了纹理。第37-48帧：她看起来完全是另一个人了。

这就是"闪烁"——2023年AI视频的时间一致性瘟疫。衣物纹理改变，光线不可解释地移动，角色脸部在四秒内经历三个不同的身份。第二次尝试：她的脸到第40帧衰老了二十年。第三次尝试：背景大厅变成了医院走廊。

创作者花费数小时在"生成并祈祷"的循环中。有时幸运，大多时候提供有明显缺陷的内容，希望客户不会注意。他们总是注意到。

演变时间线

2019-2020年：逐帧疯狂

早期视频合成将视频视为一系列独立图像。将图像生成模型应用于第1帧。然后第2帧。然后第3帧。结果？闪烁混乱。每一帧都是连贯的。放在一起，它们是一场噩梦。

研究人员尝试了基本解决方案：光学流来扭曲前面的帧、简单的时间平滑、帧混合。这些在次要运动中有所帮助，但在复杂场景中失败了。根本问题仍然存在：图像模型不理解时间。

2021-2022年：3D卷积时代

突破来自3D卷积——将2D卷积的空间理解扩展到时间维度。模型现在可以处理小块视频（8-16帧）作为统一体积而不是独立图像。

Google AI DeepMind的2021年时间循环一致性（TCC）研究表明，模型可以学习跨帧的语义对应关系。早期视频扩散模型开始将时间层合并到其架构中。闪烁减少了——但没有消失。

2023年：潜在扩散爆炸

当稳定扩散在2022-2023年走红时，每个人都尝试为视频改编它。结果是...有问题的。潜在扩散模型（LDM）在图像上表现出色，但在时间连贯性上苦恼。每一帧在潜在空间中生成，小的变化被放大成可见的闪烁。

创作者开发了精巧的变通办法：

网格方法：在相同的潜在空间中同时生成多个关键帧
ControlNet指导：使用姿态或深度图强制一致性
TokenFlow技术：跨帧传播潜在特征
后期处理：反闪烁过滤器、时间平滑、光学流稳定化

这些有所帮助。但它们是在枪伤上的绷带。底层模型仍然将时间视为事后。

2024年：基于变换器的连贯

向变换器架构的转变改变了游戏。不是卷积处理局部补丁，注意力机制可以将任何帧与任何其他帧相关联。视频扩散变换器（VDT）等模型展示了显著改进的时间一致性。

关键创新包括：

循环潜在传播：在生成步骤之间维持状态
流引导注意：使用运动信息指导特征传播
多帧调节：生成新帧受多个前面帧的影响

闪烁没有消失，但它在消退。

2025年：Seedance 2.0原生连贯

Seedance 2.0在架构级别处理时间一致性。双分支扩散变换器不将时间视为要解决的问题——它将时间视为数据的原生维度。

Seedance 2.0：连贯架构

原生时间建模如何工作

Seedance 2.0通过几个机制实现时间连贯性：

统一时空注意：与其说是处理空间然后时间（或反之），模型同时跨两个维度注意。每个像素在每一帧中与每一帧中的每个其他像素相关联，通过学习的注意力模式。
时间增强：在训练期间，模型用受控的时间扰动看到相同的序列——速度变化、帧丢弃、小时间移位。它学会了物体持续存在、运动连续、世界服从物理。
双分支处理：通过将视频和音频分离为专用分支，每个分支可以完全专注于其域。视频分支有计算预算和参数容量纯粹致力于视觉时间连贯性。
角色一致性：一个专门的机制（角色一致性）跨帧维持身份，确保脸部、衣物和关键特征即使在复杂运动中保持稳定。

比较：一致性质量

度量	2023 LDM时代	2024变换器时代	Seedance 2.0（2025）
面部身份漂移	高（在2-3秒内可见）	中等（在5-8秒内可见）	低（15秒+稳定）
背景稳定	差（常见纹理移位）	好（轻微变化）	优秀（锁定）
照明一致	差（常见闪烁）	好（渐进式移位）	优秀（稳定）
运动连贯	中等（不自然的物理）	好（改进的物理）	优秀（自然）
后期处理需要	需要大量反闪烁	轻度平滑	最小到无

这对创作者意味着什么

实际影响是变革性的：

角色驱动叙述：你的主角从第1到第360帧看起来像同一个人
一致的环境：背景保持稳定，启用适当的场景建立
可信的物理：物体自然运动和交互，没有早期AI视频的"飘浮"感觉
减少迭代：生成一次，使用它。不再"生成并祈祷"。

一个真实的例子

考虑一个行走序列——时间一致性的经典测试。

早期LDM尝试（2023）：到第8步，衣物纹理已经改变。到第20步，背景已经变形。到第40步，角色不可辨认。总可用帧：也许24。

Seedance 2.0（2025）：角色走15秒。衣物保持织物纹理和光线反应。背景保持一致。脸部保持可识别。脚部放置遵循自然物理。整个片段都可用。

相同的提示。不同的架构。不同的世界。

你可以现在采取行动

你的第一步

找到你的一个最糟糕的闪烁片段。那个一切都出了问题的。现在在Seedance 2.0中尝试相同的提示：

生成一个有移动主体的10秒片段
逐帧观看它（使用你的编辑软件箭头键）
记下之前的工具会失败的地方
观察现在保持一致的内容

差异不是微妙的。这是业余和专业之间的差异。

最大一致性的提示模板

主体：[具有清晰特征的明确、具体描述]
主体修饰符：[特定衣物、发型、显著标记]
运动：[连续的、自然的运动描述]
环境：[具有固定元素的定义明确的背景]
光线：[特定的、一致的光线设置]
物理：[真实世界的物理交互]
一致性优先：高
时长：10-15秒

示例：
"年轻男性，短卷黑发，薄银边眼镜，橄榄绿夹克，
左眉上方有显著疤痕，走过城市公园和可识别的喷泉，
左侧晚间黄金光线，投射一致的阴影，
自然走路步态，适当的脚部放置，地面上的叶子除风外保持静止，
10秒，16:9"

接下来的12个月

时间一致性对于基本情况已经"解决"。前沿现在移向：

多场景一致性：角色在不同位置和光线下看起来相同
长形式稳定：60秒片段无降解
交互一致性：维持连贯的实时生成
风格锁定序列：具有一致视觉处理的整部电影

闪烁已死。长寿活动影像。

系列导航

这是Seedance 2.0 Masterclass演变系列的第1次会话，第3篇文章。

时间一致性是新奇与电影之间的墙。它已经倒下。连贯AI视频的时代开始了。