返回部落格
seedance
evolution
tutorial-series
temporal-consistency
flickering

從閃爍到連貫:時間一致性的演變

AI視頻如何征服了它最大的敵人:幀間不穩定性。從光學流黑客到Seedance 2.0原生連貫的技術之旅。

發布於 2026-02-09

從閃爍到連貫:時間一致性的演變

時間一致性瘟疫

"優雅的40多歲女士,銀色頭髮,深藍色權力套裝,穿過公司大廳。"

這個提示是完美的。第一幀很清晰、專業——正是這位客戶想要的管理教練促銷視頻。

但在點擊生成後:

第1-12幀:她自信地走著,銀色頭髮在光線下閃閃發光。 第13-24幀:銀色頭髮變成了金色。 第25-36幀:金色變暗成棕色,套裝失去了紋理。 第37-48幀:她看起來完全是另一個人了。

這就是"閃爍"——2023年AI視頻的時間一致性瘟疫。衣物紋理改變,光線不可解釋地移動,角色臉部在四秒內經歷三個不同的身份。第二次嘗試:她的臉到第40幀衰老了二十年。第三次嘗試:背景大廳變成了醫院走廊。

創作者花費數小時在"生成並祈禱"的循環中。有時幸運,大多時候提供有明顯缺陷的內容,希望客戶不會注意。他們總是注意到。

演變時間線

2019-2020年:逐幀瘋狂

早期視頻合成將視頻視為一系列獨立圖像。將圖像生成模型應用於第1幀。然後第2幀。然後第3幀。結果?閃爍混亂。每一幀都是連貫的。放在一起,它們是一場噩夢。

研究人員嘗試了基本解決方案:光學流來扭曲前面的幀、簡單的時間平滑、幀混合。這些在次要運動中有所幫助,但在複雜場景中失敗了。根本問題仍然存在:圖像模型不理解時間。

2021-2022年:3D卷積時代

突破來自3D卷積——將2D卷積的空間理解擴展到時間維度。模型現在可以處理小塊視頻(8-16幀)作為統一體積而不是獨立圖像。

Google AI DeepMind的2021年時間循環一致性(TCC)研究表明,模型可以學習跨幀的語義對應關係。早期視頻擴散模型開始將時間層合併到其架構中。閃爍減少了——但沒有消失。

2023年:潛在擴散爆炸

當穩定擴散在2022-2023年走紅時,每個人都嘗試為視頻改編它。結果是...有問題的。潛在擴散模型(LDM)在圖像上表現出色,但在時間連貫性上苦惱。每一幀在潛在空間中生成,小的變化被放大成可見的閃爍。

創作者開發了精巧的變通辦法:

  • 網格方法:在相同的潛在空間中同時生成多個關鍵幀
  • ControlNet指導:使用姿態或深度圖強制一致性
  • TokenFlow技術:跨幀傳播潛在特徵
  • 後期處理:反閃爍過濾器、時間平滑、光學流穩定化

這些有所幫助。但它們是在槍傷上的繃帶。底層模型仍然將時間視為事後。

2024年:基於變換器的連貫

向變換器架構的轉變改變了遊戲。不是卷積處理局部補丁,注意力機制可以將任何幀與任何其他幀相關聯。視頻擴散變換器(VDT)等模型展示了顯著改進的時間一致性。

關鍵創新包括:

  • 循環潛在傳播:在生成步驟之間維持狀態
  • 流引導注意:使用運動信息指導特徵傳播
  • 多幀調節:生成新幀受多個前面幀的影響

閃爍沒有消失,但它在消退。

2025年:Seedance 2.0原生連貫

Seedance 2.0在架構級別處理時間一致性。雙分支擴散變換器不將時間視為要解決的問題——它將時間視為數據的原生維度。

Seedance 2.0:連貫架構

原生時間建模如何工作

Seedance 2.0透過幾個機制實現時間連貫性:

  1. 統一時空注意:與其說是處理空間然後時間(或反之),模型同時跨兩個維度注意。每個像素在每一幀中與每一幀中的每個其他像素相關聯,透過學習的注意力模式。

  2. 時間增強:在訓練期間,模型用受控的時間擾動看到相同的序列——速度變化、幀丟棄、小時間移位。它學會了物體持續存在、運動連續、世界服從物理。

  3. 雙分支處理:透過將視頻和音頻分離為專用分支,每個分支可以完全專注於其域。視頻分支有計算預算和參數容量純粹致力於視覺時間連貫性。

  4. 角色一致性:一個專門的機制(角色一致性)跨幀維持身份,確保臉部、衣物和關鍵特徵即使在複雜運動中保持穩定。

比較:一致性品質

度量2023 LDM時代2024變換器時代Seedance 2.0(2025)
面部身份漂移高(在2-3秒內可見)中等(在5-8秒內可見)低(15秒+穩定)
背景穩定差(常見紋理移位)好(輕微變化)優秀(鎖定)
照明一致差(常見閃爍)好(漸進式移位)優秀(穩定)
運動連貫中等(不自然的物理)好(改進的物理)優秀(自然)
後期處理需要需要大量反閃爍輕度平滑最小到無

這對創作者意味著什麼

實際影響是變革性的:

  • 角色驅動敘述:你的主角從第1到第360幀看起來像同一個人
  • 一致的環境:背景保持穩定,啟用適當的場景建立
  • 可信的物理:物體自然運動和交互,沒有早期AI視頻的"飄浮"感覺
  • 減少迭代:生成一次,使用它。不再"生成並祈禱"。

一個真實的例子

考慮一個行走序列——時間一致性的經典測試。

早期LDM嘗試(2023):到第8步,衣物紋理已經改變。到第20步,背景已經變形。到第40步,角色不可辨認。總可用幀:也許24。

Seedance 2.0(2025):角色走15秒。衣物保持織物紋理和光線反應。背景保持一致。臉部保持可識別。腳部放置遵循自然物理。整個片段都可用。

相同的提示。不同的架構。不同的世界。

你可以現在採取行動

你的第一步

找到你的一個最糟糕的閃爍片段。那個一切都出了問題的。現在在Seedance 2.0中嘗試相同的提示:

  1. 生成一個有移動主體的10秒片段
  2. 逐幀觀看它(使用你的編輯軟體箭頭鍵)
  3. 記下之前的工具會失敗的地方
  4. 觀察現在保持一致的內容

差異不是微妙的。這是業餘和專業之間的差異。

最大一致性的提示模板

主體:[具有清晰特徵的明確、具體描述]
主體修飾符:[特定衣物、髮型、顯著標記]
運動:[連續的、自然的運動描述]
環境:[具有固定元素的定義明確的背景]
光線:[特定的、一致的光線設置]
物理:[真實世界的物理交互]
一致性優先:高
時長:10-15秒

示例:
"年輕男性,短捲黑髮,薄銀邊眼鏡,橄欖綠夾克,
左眉上方有顯著疤痕,走過城市公園和可識別的噴泉,
左側晚間黃金光線,投射一致的陰影,
自然走路步態,適當的腳部放置,地面上的葉子除風外保持靜止,
10秒,16:9"

接下來的12個月

時間一致性對於基本情況已經"解決"。前沿現在移向:

  • 多場景一致性:角色在不同位置和光線下看起來相同
  • 長形式穩定:60秒片段無降解
  • 交互一致性:維持連貫的實時生成
  • 風格鎖定序列:具有一致視覺處理的整部電影

閃爍已死。長壽活動影像。

系列導航

這是Seedance 2.0 Masterclass演變系列的第1次會話,第3篇文章


時間一致性是新奇與電影之間的牆。它已經倒下。連貫AI視頻的時代開始了。