seedance

evolution

tutorial-series

temporal-consistency

flickering

從閃爍到連貫：時間一致性的演變

AI視頻如何征服了它最大的敵人：幀間不穩定性。從光學流黑客到Seedance 2.0原生連貫的技術之旅。

發布於 2026-02-09

從閃爍到連貫：時間一致性的演變

時間一致性瘟疫

"優雅的40多歲女士，銀色頭髮，深藍色權力套裝，穿過公司大廳。"

這個提示是完美的。第一幀很清晰、專業——正是這位客戶想要的管理教練促銷視頻。

但在點擊生成後：

第1-12幀：她自信地走著，銀色頭髮在光線下閃閃發光。第13-24幀：銀色頭髮變成了金色。第25-36幀：金色變暗成棕色，套裝失去了紋理。第37-48幀：她看起來完全是另一個人了。

這就是"閃爍"——2023年AI視頻的時間一致性瘟疫。衣物紋理改變，光線不可解釋地移動，角色臉部在四秒內經歷三個不同的身份。第二次嘗試：她的臉到第40幀衰老了二十年。第三次嘗試：背景大廳變成了醫院走廊。

創作者花費數小時在"生成並祈禱"的循環中。有時幸運，大多時候提供有明顯缺陷的內容，希望客戶不會注意。他們總是注意到。

演變時間線

2019-2020年：逐幀瘋狂

早期視頻合成將視頻視為一系列獨立圖像。將圖像生成模型應用於第1幀。然後第2幀。然後第3幀。結果？閃爍混亂。每一幀都是連貫的。放在一起，它們是一場噩夢。

研究人員嘗試了基本解決方案：光學流來扭曲前面的幀、簡單的時間平滑、幀混合。這些在次要運動中有所幫助，但在複雜場景中失敗了。根本問題仍然存在：圖像模型不理解時間。

2021-2022年：3D卷積時代

突破來自3D卷積——將2D卷積的空間理解擴展到時間維度。模型現在可以處理小塊視頻（8-16幀）作為統一體積而不是獨立圖像。

Google AI DeepMind的2021年時間循環一致性（TCC）研究表明，模型可以學習跨幀的語義對應關係。早期視頻擴散模型開始將時間層合併到其架構中。閃爍減少了——但沒有消失。

2023年：潛在擴散爆炸

當穩定擴散在2022-2023年走紅時，每個人都嘗試為視頻改編它。結果是...有問題的。潛在擴散模型（LDM）在圖像上表現出色，但在時間連貫性上苦惱。每一幀在潛在空間中生成，小的變化被放大成可見的閃爍。

創作者開發了精巧的變通辦法：

網格方法：在相同的潛在空間中同時生成多個關鍵幀
ControlNet指導：使用姿態或深度圖強制一致性
TokenFlow技術：跨幀傳播潛在特徵
後期處理：反閃爍過濾器、時間平滑、光學流穩定化

這些有所幫助。但它們是在槍傷上的繃帶。底層模型仍然將時間視為事後。

2024年：基於變換器的連貫

向變換器架構的轉變改變了遊戲。不是卷積處理局部補丁，注意力機制可以將任何幀與任何其他幀相關聯。視頻擴散變換器（VDT）等模型展示了顯著改進的時間一致性。

關鍵創新包括：

循環潛在傳播：在生成步驟之間維持狀態
流引導注意：使用運動信息指導特徵傳播
多幀調節：生成新幀受多個前面幀的影響

閃爍沒有消失，但它在消退。

2025年：Seedance 2.0原生連貫

Seedance 2.0在架構級別處理時間一致性。雙分支擴散變換器不將時間視為要解決的問題——它將時間視為數據的原生維度。

Seedance 2.0：連貫架構

原生時間建模如何工作

Seedance 2.0透過幾個機制實現時間連貫性：

統一時空注意：與其說是處理空間然後時間（或反之），模型同時跨兩個維度注意。每個像素在每一幀中與每一幀中的每個其他像素相關聯，透過學習的注意力模式。
時間增強：在訓練期間，模型用受控的時間擾動看到相同的序列——速度變化、幀丟棄、小時間移位。它學會了物體持續存在、運動連續、世界服從物理。
雙分支處理：透過將視頻和音頻分離為專用分支，每個分支可以完全專注於其域。視頻分支有計算預算和參數容量純粹致力於視覺時間連貫性。
角色一致性：一個專門的機制（角色一致性）跨幀維持身份，確保臉部、衣物和關鍵特徵即使在複雜運動中保持穩定。

比較：一致性品質

度量	2023 LDM時代	2024變換器時代	Seedance 2.0（2025）
面部身份漂移	高（在2-3秒內可見）	中等（在5-8秒內可見）	低（15秒+穩定）
背景穩定	差（常見紋理移位）	好（輕微變化）	優秀（鎖定）
照明一致	差（常見閃爍）	好（漸進式移位）	優秀（穩定）
運動連貫	中等（不自然的物理）	好（改進的物理）	優秀（自然）
後期處理需要	需要大量反閃爍	輕度平滑	最小到無

這對創作者意味著什麼

實際影響是變革性的：

角色驅動敘述：你的主角從第1到第360幀看起來像同一個人
一致的環境：背景保持穩定，啟用適當的場景建立
可信的物理：物體自然運動和交互，沒有早期AI視頻的"飄浮"感覺
減少迭代：生成一次，使用它。不再"生成並祈禱"。

一個真實的例子

考慮一個行走序列——時間一致性的經典測試。

早期LDM嘗試（2023）：到第8步，衣物紋理已經改變。到第20步，背景已經變形。到第40步，角色不可辨認。總可用幀：也許24。

Seedance 2.0（2025）：角色走15秒。衣物保持織物紋理和光線反應。背景保持一致。臉部保持可識別。腳部放置遵循自然物理。整個片段都可用。

相同的提示。不同的架構。不同的世界。

你可以現在採取行動

你的第一步

找到你的一個最糟糕的閃爍片段。那個一切都出了問題的。現在在Seedance 2.0中嘗試相同的提示：

生成一個有移動主體的10秒片段
逐幀觀看它（使用你的編輯軟體箭頭鍵）
記下之前的工具會失敗的地方
觀察現在保持一致的內容

差異不是微妙的。這是業餘和專業之間的差異。

最大一致性的提示模板

主體：[具有清晰特徵的明確、具體描述]
主體修飾符：[特定衣物、髮型、顯著標記]
運動：[連續的、自然的運動描述]
環境：[具有固定元素的定義明確的背景]
光線：[特定的、一致的光線設置]
物理：[真實世界的物理交互]
一致性優先：高
時長：10-15秒

示例：
"年輕男性，短捲黑髮，薄銀邊眼鏡，橄欖綠夾克，
左眉上方有顯著疤痕，走過城市公園和可識別的噴泉，
左側晚間黃金光線，投射一致的陰影，
自然走路步態，適當的腳部放置，地面上的葉子除風外保持靜止，
10秒，16:9"

接下來的12個月

時間一致性對於基本情況已經"解決"。前沿現在移向：

多場景一致性：角色在不同位置和光線下看起來相同
長形式穩定：60秒片段無降解
交互一致性：維持連貫的實時生成
風格鎖定序列：具有一致視覺處理的整部電影

閃爍已死。長壽活動影像。

系列導航

這是Seedance 2.0 Masterclass演變系列的第1次會話，第3篇文章。

時間一致性是新奇與電影之間的牆。它已經倒下。連貫AI視頻的時代開始了。