返回博客
seedance
evolution
tutorial-series
depth-perception
3d-space

从平到深:立体感的营造

探索AI视频中的深度表现如何从纸板剪影演变为空间连贯的3D场景,以及Seedance 2.0的隐式3D理解如何创造真正的维度叙事。

发布于 2026-02-10

从平到深:立体感的营造

2D 与 3D 的鸿沟

奢侈腕表在阿尔卑斯山日出、城市天际线黄昏、地中海别墅黄金时段——传统制作需要旅行、许可证、天气运气,预算难以承受。2023 年的 AI 视频生成能解决这个问题吗?

上传产品照片,生成背景——结果技术上令人印象深刻:山景有大气透视,城市天际线有景深模糊,别墅有建筑连贯性。但有些地方不对劲。

"一切看起来都像在绿幕上拍摄的。腕表从未感觉环境中。它像浮在美丽画作前的纸板剪影。"

问题微妙但致命:

接触阴影:腕表没有在桌子上投射接地阴影,或阴影方向与环境光照不匹配。

反射:蓝宝石水晶应该显示天空和山的反射,却反射与场景不对应的通用光斑。

大气交互:没有光束中的尘埃微粒,没有对远处物体影响更大的景深雾霾。腕表存在于与其环境不同的维度平面。

尺度一致性:背景元素(树木、建筑)有不一致的相对大小,"那座山有多远"的感觉被破坏了。

200 多次生成尝试后,根本限制仍然明显:这些模型理解 2D 构图,而非 3D 空间。它们生成漂亮的图像,却在将物体放置于连贯环境这一基本任务上失败。

项目转向传统制作:6.7 万美元预算,6 周时间线。AI"解决方案"消耗 40 小时,却没有产生任何可用的东西。腕表从未相信自己在山里,观众也没有。

演变时间线:从分层图像到空间理解

2019:2D合成——剪影与叠加

早期AI"场景合成"本质上是自动化的Photoshop工作。GAN可以分别生成背景和前景,但结合它们需要:

  • 手动遮罩和边缘细化
  • 手绘接触阴影
  • 层之间仔细的色彩匹配
  • 固定摄影机角度(无法进行视差)

"3D感"需要人类艺术家通过手动绘画添加深度线索。AI生成组件;人类提供空间连贯性。

2021:视差近似——假深度

一些2021年的系统尝试通过以下方式实现深度:

  • 将前景/中景/背景分离到不同的生成通道
  • 根据"深度"应用不同的运动模糊
  • 通过后处理叠加添加大气透视

结果适用于特定场景——具有清晰深度分离的景观缓慢平移。但任何复杂的空间关系(物体互相遮挡、角色在3D空间中移动、带视差的摄影机运动)都会暴露幻觉。

生成时间为5秒片段10-15分钟,使迭代不切实际。创作者接受"平但美"而非追求真正的维度连贯性。

2023:隐式深度——统计模式

Runway Gen-2和同期产品显示了隐式深度理解的改进:

  • 更好的物体相对缩放
  • 更一致的大气透视
  • 改进的阴影方向(虽然仍然经常错误)
  • 偶尔正确处理遮挡

但深度是统计性的,而非结构性的。模型学会了"山通常去树后面"和"近物体比远物体大"——但不理解为什么。当场景偏离训练分布时,深度连贯性崩溃。

复杂的3D场景仍然有问题:

  • 摄影机穿过杂乱空间移动
  • 角色与3D环境交互(开门、坐在家具上)
  • 反射表面显示准确的环境映射
  • 具有正确折射的透明材料

变通方案:避免这些镜头。AI视频发展出独特的"外观"——浅景深、有限的摄影机运动、简单的背景——以补偿空间理解限制。

2025:隐式3D表征——结构性理解

Seedance 2.0的架构包含隐式3D场景表征。双分支扩散Transformer不仅预测2D像素——它还保持对以下内容的理解:

空间关系: 物体相对于彼此和摄影机占据特定的3D位置。

物理光传输: 阴影、反射和折射基于3D几何计算,而非作为2D效果绘制。

摄影机运动视差: 移动摄影机在近物体和远物体之间产生正确的相对运动。

表面属性: 材料基于物理属性(粗糙度、金属度、透明度)对其环境做出响应。

这不是实时3D渲染——它是学习到的3D理解,编码在模型的权重中。但结果以转变创意可能性的方式正确表现。

Seedance 2.0解决方案:深度架构

隐式3D如何工作

传统扩散模型直接从噪声生成像素,由文本嵌入引导。没有"场景中有什么"的中间表征——只是向可能图像的统计舞蹈。

Seedance 2.0的架构插入了隐式3D层:

  1. 输入处理: 图像、文本和视频参考被分析以提取3D场景描述符(粗略几何、光位置、材料属性)

  2. 场景表征: 双分支Transformer在2D像素预测旁边保持潜在3D表征

  3. 物理模拟: 光传输、摄影机投影和物体关系在此3D空间中计算

  4. 像素生成: 从3D表征渲染2D输出,确保物理一致性

结果不是完美的3D重建——它是近似的、学习到的3D,捕捉视频生成所需的基本空间关系。

实操演示:环境中的产品

挑战: 将一款奢侈腕表放置在木屋环境中的木桌上,窗户透入自然光。

Seedance 2.0方法:

上传参考图像:

  • 腕表产品照(多个角度用于3D理解)
  • 木桌纹理参考
  • 显示期望光照的山木屋内部参考

启用导演模式并结构化提示词:

场景:山木屋内部,下午光线透过窗户
主体:木桌上的奢侈腕表,英雄构图

空间设置:
  - 摄影机:45°角,50mm等效,桌面高度
  - 腕表:画框中心,距窗户1米
  - 窗户:摄影机左侧,投射自然光
  - 背景:有景深的木屋内部

深度线索:
  - 前景:桌面纹理,接触阴影
  - 中景:有环境反射的腕表
  - 背景:柔和的窗户景观,大气深度

物理属性:
  - 腕表水晶:反射窗户和室内
  - 金属表面:响应光照方向
  - 木纹:光穿过表面
  - 窗户玻璃:外部景观的轻微折射

Seedance 2.0生成:

输出显示正确的空间关系:

  • 接触集成: 腕表在木纹上投射柔和的阴影,方向正确面向窗户光。木纹纹理显示适当的透视缩短。

  • 环境反射: 腕表水晶显示窗户和木屋内部的扭曲但可识别的反射——不是通用高光,而是特定的环境特征。

  • 深度分层: 窗外的背景元素显示大气雾霾。室内元素(椅子、壁炉)随距离正确缩放。

  • 摄影机运动稳定性: 如用摄影机运动扩展,视差表现正确——近物体(腕表、桌子)比远物体(窗户景观)移动更多。

并排对比:深度演变

深度挑战Runway Gen-2 (2023)Pika Labs (2024)Seedance 2.0 (2026)
接触阴影经常缺失或方向错误更好但不一致~85%物理正确
环境反射通用模式场景感知但近似特定且连贯
摄影机视差有限或不稳定基本实现复杂场景稳健
尺度一致性~60%准确~70%准确~90%准确
透明度/折射经常不透明部分透明正确材料行为
遮挡处理频繁错误改进但脆弱大多数场景可靠

原生2K:深度细节所在

深度感知依赖精细细节:

  • 纹理渐变: 木纹、织物编织、随距离压缩的石表面
  • 边缘定义: 锐利的近边缘,柔和的远边缘
  • 微阴影: 小表面细节投射创造3D纹理的微小阴影
  • 镜面高光: 随表面曲率变化的高光

在720p,这些线索被压缩成模糊。原生2K保留传达深度的渐变:

  • 单个木纹线显示透视缩短
  • 织物纹理在远处保持细节
  • 表面瑕疵创造微阴影
  • 曲面显示高光渐变

"平"与"深"之间的差异往往取决于这些精细线索是被保留还是丢失。

导演模式:控制3D空间

内部分镜表实现显式3D控制:

镜头1:
  摄影机位置: [x: 0, y: 1.2, z: 2.0]
  看向: [x: 0, y: 0.8, z: 0]
  焦距: 50mm

  主体位置: [x: 0, y: 0.8, z: 0]
  主体旋转: [y: 15°]

  环境:
    类型: 山木屋
    光源: 左侧窗户
    氛围: 可见尘埃微粒

空间约束:
  - 摄影机移动中保持主体尺度
  - 保留与表面的接触阴影
  - 环境反射必须匹配场景
  - 背景景深雾霾与距离成比例

Seedance 2.0通过其隐式3D表征解释这些约束,生成尊重空间关系的输出。

速度实现深度探索

创建深度连贯场景传统上需要试错。用29秒生成时间,你可以:

  1. 用基本深度设置生成
  2. 审核空间连贯性问题
  3. 调整摄影机角度或主体位置
  4. 重新生成并比较
  5. 迭代直到深度"感觉对"

这个过程用Seedance 2.0可能需要10-15分钟。用4-5分钟生成时间,需要1-2小时——你会接受"足够好"而非"实际上连贯"。

你可以立即行动:构建空间连贯场景

第1步:通过参考提供3D信息

Seedance 2.0从以下提取空间理解:

  • 同一物体的多个角度: 上传3-4个主体视图以建立3D形态
  • 环境参考: 显示期望深度关系的图像
  • 光照参考: 展示光如何与空间交互的照片

你提供的3D信息越多,空间连贯性越好。

第2步:使用这个深度聚焦提示词模板

空间概念: [整体3D排列]

摄影机:
  位置: [相对于场景]
  高度: [眼平/仰视/俯视]
  移动: [静态/摇/推等]

主体放置:
  位置: [在3D空间中]
  朝向: [面对方向]
  接触: [主体如何触碰环境]

深度层:
  前景: [有细节的近元素]
  中景: [主要主体和直接环境]
  背景: [有氛围的远元素]

光照深度:
  光源: [光从哪里来]
  质量: [它如何包裹形态]
  阴影: [方向和柔和度]

反射/折射:
  - [表面如何与环境交互]

一致性检查:
  - 尺度关系
  - 阴影方向
  - 接触集成
  - 视差行为

第3步:审核深度连贯性

在接受生成输出之前,检查:

  • 接触点: 主体是否在表面上投射适当的阴影?
  • 反射: 反射表面是否显示环境适当的图像?
  • 尺度: 远处物体是否看起来比近处物体适当更小?
  • 氛围: 是否有景深适当的雾霾或清晰度?
  • 运动: 如果摄影机移动,视差是否表现正确?

如任何检查失败,调整并重新生成。速度使这种迭代切实可行。

12个月预测:深度的地平线

2026年Q2: 显式深度图输入。提供粗略深度绘画或3D代理;Seedance 2.0生成尊重该几何的视频。

2026年Q3: 体积效果控制。以空间精度指定雾密度、光束散射、大气粒子。

2026年Q4: 反射探针模拟。上传环境HDRIs或360°捕捉;反射表面准确响应该特定环境。

2027年: 混合工作流。将AI生成元素与实时3D渲染结合,保持两者之间的连贯光照和深度。


系列导航:

本文是 Seedance 2.0 Masterclass:内容进化系列的一部分。