seedance

evolution

tutorial-series

depth-perception

3d-space

从平到深：立体感的营造

探索AI视频中的深度表现如何从纸板剪影演变为空间连贯的3D场景，以及Seedance 2.0的隐式3D理解如何创造真正的维度叙事。

发布于 2026-02-10

从平到深：立体感的营造

2D 与 3D 的鸿沟

奢侈腕表在阿尔卑斯山日出、城市天际线黄昏、地中海别墅黄金时段——传统制作需要旅行、许可证、天气运气，预算难以承受。2023 年的 AI 视频生成能解决这个问题吗？

上传产品照片，生成背景——结果技术上令人印象深刻：山景有大气透视，城市天际线有景深模糊，别墅有建筑连贯性。但有些地方不对劲。

"一切看起来都像在绿幕上拍摄的。腕表从未感觉在环境中。它像浮在美丽画作前的纸板剪影。"

问题微妙但致命：

接触阴影：腕表没有在桌子上投射接地阴影，或阴影方向与环境光照不匹配。

反射：蓝宝石水晶应该显示天空和山的反射，却反射与场景不对应的通用光斑。

大气交互：没有光束中的尘埃微粒，没有对远处物体影响更大的景深雾霾。腕表存在于与其环境不同的维度平面。

尺度一致性：背景元素（树木、建筑）有不一致的相对大小，"那座山有多远"的感觉被破坏了。

200 多次生成尝试后，根本限制仍然明显：这些模型理解 2D 构图，而非 3D 空间。它们生成漂亮的图像，却在将物体放置于连贯环境这一基本任务上失败。

项目转向传统制作：6.7 万美元预算，6 周时间线。AI"解决方案"消耗 40 小时，却没有产生任何可用的东西。腕表从未相信自己在山里，观众也没有。

演变时间线：从分层图像到空间理解

2019：2D合成——剪影与叠加

早期AI"场景合成"本质上是自动化的Photoshop工作。GAN可以分别生成背景和前景，但结合它们需要：

手动遮罩和边缘细化
手绘接触阴影
层之间仔细的色彩匹配
固定摄影机角度（无法进行视差）

"3D感"需要人类艺术家通过手动绘画添加深度线索。AI生成组件；人类提供空间连贯性。

2021：视差近似——假深度

一些2021年的系统尝试通过以下方式实现深度：

将前景/中景/背景分离到不同的生成通道
根据"深度"应用不同的运动模糊
通过后处理叠加添加大气透视

结果适用于特定场景——具有清晰深度分离的景观缓慢平移。但任何复杂的空间关系（物体互相遮挡、角色在3D空间中移动、带视差的摄影机运动）都会暴露幻觉。

生成时间为5秒片段10-15分钟，使迭代不切实际。创作者接受"平但美"而非追求真正的维度连贯性。

2023：隐式深度——统计模式

Runway Gen-2和同期产品显示了隐式深度理解的改进：

更好的物体相对缩放
更一致的大气透视
改进的阴影方向（虽然仍然经常错误）
偶尔正确处理遮挡

但深度是统计性的，而非结构性的。模型学会了"山通常去树后面"和"近物体比远物体大"——但不理解为什么。当场景偏离训练分布时，深度连贯性崩溃。

复杂的3D场景仍然有问题：

摄影机穿过杂乱空间移动
角色与3D环境交互（开门、坐在家具上）
反射表面显示准确的环境映射
具有正确折射的透明材料

变通方案：避免这些镜头。AI视频发展出独特的"外观"——浅景深、有限的摄影机运动、简单的背景——以补偿空间理解限制。

2025：隐式3D表征——结构性理解

Seedance 2.0的架构包含隐式3D场景表征。双分支扩散Transformer不仅预测2D像素——它还保持对以下内容的理解：

空间关系： 物体相对于彼此和摄影机占据特定的3D位置。

物理光传输： 阴影、反射和折射基于3D几何计算，而非作为2D效果绘制。

摄影机运动视差： 移动摄影机在近物体和远物体之间产生正确的相对运动。

表面属性： 材料基于物理属性（粗糙度、金属度、透明度）对其环境做出响应。

这不是实时3D渲染——它是学习到的3D理解，编码在模型的权重中。但结果以转变创意可能性的方式正确表现。

Seedance 2.0解决方案：深度架构

隐式3D如何工作

传统扩散模型直接从噪声生成像素，由文本嵌入引导。没有"场景中有什么"的中间表征——只是向可能图像的统计舞蹈。

Seedance 2.0的架构插入了隐式3D层：

输入处理： 图像、文本和视频参考被分析以提取3D场景描述符（粗略几何、光位置、材料属性）
场景表征： 双分支Transformer在2D像素预测旁边保持潜在3D表征
物理模拟： 光传输、摄影机投影和物体关系在此3D空间中计算
像素生成： 从3D表征渲染2D输出，确保物理一致性

结果不是完美的3D重建——它是近似的、学习到的3D，捕捉视频生成所需的基本空间关系。

实操演示：环境中的产品

挑战： 将一款奢侈腕表放置在木屋环境中的木桌上，窗户透入自然光。

Seedance 2.0方法：

上传参考图像：

腕表产品照（多个角度用于3D理解）
木桌纹理参考
显示期望光照的山木屋内部参考

启用导演模式并结构化提示词：

场景：山木屋内部，下午光线透过窗户
主体：木桌上的奢侈腕表，英雄构图

空间设置：
  - 摄影机：45°角，50mm等效，桌面高度
  - 腕表：画框中心，距窗户1米
  - 窗户：摄影机左侧，投射自然光
  - 背景：有景深的木屋内部

深度线索：
  - 前景：桌面纹理，接触阴影
  - 中景：有环境反射的腕表
  - 背景：柔和的窗户景观，大气深度

物理属性：
  - 腕表水晶：反射窗户和室内
  - 金属表面：响应光照方向
  - 木纹：光穿过表面
  - 窗户玻璃：外部景观的轻微折射

Seedance 2.0生成：

输出显示正确的空间关系：

接触集成： 腕表在木纹上投射柔和的阴影，方向正确面向窗户光。木纹纹理显示适当的透视缩短。
环境反射： 腕表水晶显示窗户和木屋内部的扭曲但可识别的反射——不是通用高光，而是特定的环境特征。
深度分层： 窗外的背景元素显示大气雾霾。室内元素（椅子、壁炉）随距离正确缩放。
摄影机运动稳定性： 如用摄影机运动扩展，视差表现正确——近物体（腕表、桌子）比远物体（窗户景观）移动更多。

并排对比：深度演变

深度挑战	Runway Gen-2 (2023)	Pika Labs (2024)	Seedance 2.0 (2026)
接触阴影	经常缺失或方向错误	更好但不一致	~85%物理正确
环境反射	通用模式	场景感知但近似	特定且连贯
摄影机视差	有限或不稳定	基本实现	复杂场景稳健
尺度一致性	~60%准确	~70%准确	~90%准确
透明度/折射	经常不透明	部分透明	正确材料行为
遮挡处理	频繁错误	改进但脆弱	大多数场景可靠

原生2K：深度细节所在

深度感知依赖精细细节：

纹理渐变： 木纹、织物编织、随距离压缩的石表面
边缘定义： 锐利的近边缘，柔和的远边缘
微阴影： 小表面细节投射创造3D纹理的微小阴影
镜面高光： 随表面曲率变化的高光

在720p，这些线索被压缩成模糊。原生2K保留传达深度的渐变：

单个木纹线显示透视缩短
织物纹理在远处保持细节
表面瑕疵创造微阴影
曲面显示高光渐变

"平"与"深"之间的差异往往取决于这些精细线索是被保留还是丢失。

导演模式：控制3D空间

内部分镜表实现显式3D控制：

镜头1:
  摄影机位置: [x: 0, y: 1.2, z: 2.0]
  看向: [x: 0, y: 0.8, z: 0]
  焦距: 50mm

  主体位置: [x: 0, y: 0.8, z: 0]
  主体旋转: [y: 15°]

  环境:
    类型: 山木屋
    光源: 左侧窗户
    氛围: 可见尘埃微粒

空间约束:
  - 摄影机移动中保持主体尺度
  - 保留与表面的接触阴影
  - 环境反射必须匹配场景
  - 背景景深雾霾与距离成比例

Seedance 2.0通过其隐式3D表征解释这些约束，生成尊重空间关系的输出。

速度实现深度探索

创建深度连贯场景传统上需要试错。用29秒生成时间，你可以：

用基本深度设置生成
审核空间连贯性问题
调整摄影机角度或主体位置
重新生成并比较
迭代直到深度"感觉对"

这个过程用Seedance 2.0可能需要10-15分钟。用4-5分钟生成时间，需要1-2小时——你会接受"足够好"而非"实际上连贯"。

你可以立即行动：构建空间连贯场景

第1步：通过参考提供3D信息

Seedance 2.0从以下提取空间理解：

同一物体的多个角度： 上传3-4个主体视图以建立3D形态
环境参考： 显示期望深度关系的图像
光照参考： 展示光如何与空间交互的照片

你提供的3D信息越多，空间连贯性越好。

第2步：使用这个深度聚焦提示词模板

空间概念: [整体3D排列]

摄影机:
  位置: [相对于场景]
  高度: [眼平/仰视/俯视]
  移动: [静态/摇/推等]

主体放置:
  位置: [在3D空间中]
  朝向: [面对方向]
  接触: [主体如何触碰环境]

深度层:
  前景: [有细节的近元素]
  中景: [主要主体和直接环境]
  背景: [有氛围的远元素]

光照深度:
  光源: [光从哪里来]
  质量: [它如何包裹形态]
  阴影: [方向和柔和度]

反射/折射:
  - [表面如何与环境交互]

一致性检查:
  - 尺度关系
  - 阴影方向
  - 接触集成
  - 视差行为

第3步：审核深度连贯性

在接受生成输出之前，检查：

接触点： 主体是否在表面上投射适当的阴影？
反射： 反射表面是否显示环境适当的图像？
尺度： 远处物体是否看起来比近处物体适当更小？
氛围： 是否有景深适当的雾霾或清晰度？
运动： 如果摄影机移动，视差是否表现正确？

如任何检查失败，调整并重新生成。速度使这种迭代切实可行。

12个月预测：深度的地平线

2026年Q2： 显式深度图输入。提供粗略深度绘画或3D代理；Seedance 2.0生成尊重该几何的视频。

2026年Q3： 体积效果控制。以空间精度指定雾密度、光束散射、大气粒子。

2026年Q4： 反射探针模拟。上传环境HDRIs或360°捕捉；反射表面准确响应该特定环境。

2027年： 混合工作流。将AI生成元素与实时3D渲染结合，保持两者之间的连贯光照和深度。

系列导航：

上一篇：E08: 从慢到快：生成速度的颠覆
下一篇：E10: 从静到动：相机语言的掌握 →

本文是 Seedance 2.0 Masterclass：内容进化系列的一部分。