从平到深:立体感的营造
探索AI视频中的深度表现如何从纸板剪影演变为空间连贯的3D场景,以及Seedance 2.0的隐式3D理解如何创造真正的维度叙事。
发布于 2026-02-10
从平到深:立体感的营造
2D 与 3D 的鸿沟
奢侈腕表在阿尔卑斯山日出、城市天际线黄昏、地中海别墅黄金时段——传统制作需要旅行、许可证、天气运气,预算难以承受。2023 年的 AI 视频生成能解决这个问题吗?
上传产品照片,生成背景——结果技术上令人印象深刻:山景有大气透视,城市天际线有景深模糊,别墅有建筑连贯性。但有些地方不对劲。
"一切看起来都像在绿幕上拍摄的。腕表从未感觉在环境中。它像浮在美丽画作前的纸板剪影。"
问题微妙但致命:
接触阴影:腕表没有在桌子上投射接地阴影,或阴影方向与环境光照不匹配。
反射:蓝宝石水晶应该显示天空和山的反射,却反射与场景不对应的通用光斑。
大气交互:没有光束中的尘埃微粒,没有对远处物体影响更大的景深雾霾。腕表存在于与其环境不同的维度平面。
尺度一致性:背景元素(树木、建筑)有不一致的相对大小,"那座山有多远"的感觉被破坏了。
200 多次生成尝试后,根本限制仍然明显:这些模型理解 2D 构图,而非 3D 空间。它们生成漂亮的图像,却在将物体放置于连贯环境这一基本任务上失败。
项目转向传统制作:6.7 万美元预算,6 周时间线。AI"解决方案"消耗 40 小时,却没有产生任何可用的东西。腕表从未相信自己在山里,观众也没有。
演变时间线:从分层图像到空间理解
2019:2D合成——剪影与叠加
早期AI"场景合成"本质上是自动化的Photoshop工作。GAN可以分别生成背景和前景,但结合它们需要:
- 手动遮罩和边缘细化
- 手绘接触阴影
- 层之间仔细的色彩匹配
- 固定摄影机角度(无法进行视差)
"3D感"需要人类艺术家通过手动绘画添加深度线索。AI生成组件;人类提供空间连贯性。
2021:视差近似——假深度
一些2021年的系统尝试通过以下方式实现深度:
- 将前景/中景/背景分离到不同的生成通道
- 根据"深度"应用不同的运动模糊
- 通过后处理叠加添加大气透视
结果适用于特定场景——具有清晰深度分离的景观缓慢平移。但任何复杂的空间关系(物体互相遮挡、角色在3D空间中移动、带视差的摄影机运动)都会暴露幻觉。
生成时间为5秒片段10-15分钟,使迭代不切实际。创作者接受"平但美"而非追求真正的维度连贯性。
2023:隐式深度——统计模式
Runway Gen-2和同期产品显示了隐式深度理解的改进:
- 更好的物体相对缩放
- 更一致的大气透视
- 改进的阴影方向(虽然仍然经常错误)
- 偶尔正确处理遮挡
但深度是统计性的,而非结构性的。模型学会了"山通常去树后面"和"近物体比远物体大"——但不理解为什么。当场景偏离训练分布时,深度连贯性崩溃。
复杂的3D场景仍然有问题:
- 摄影机穿过杂乱空间移动
- 角色与3D环境交互(开门、坐在家具上)
- 反射表面显示准确的环境映射
- 具有正确折射的透明材料
变通方案:避免这些镜头。AI视频发展出独特的"外观"——浅景深、有限的摄影机运动、简单的背景——以补偿空间理解限制。
2025:隐式3D表征——结构性理解
Seedance 2.0的架构包含隐式3D场景表征。双分支扩散Transformer不仅预测2D像素——它还保持对以下内容的理解:
空间关系: 物体相对于彼此和摄影机占据特定的3D位置。
物理光传输: 阴影、反射和折射基于3D几何计算,而非作为2D效果绘制。
摄影机运动视差: 移动摄影机在近物体和远物体之间产生正确的相对运动。
表面属性: 材料基于物理属性(粗糙度、金属度、透明度)对其环境做出响应。
这不是实时3D渲染——它是学习到的3D理解,编码在模型的权重中。但结果以转变创意可能性的方式正确表现。
Seedance 2.0解决方案:深度架构
隐式3D如何工作
传统扩散模型直接从噪声生成像素,由文本嵌入引导。没有"场景中有什么"的中间表征——只是向可能图像的统计舞蹈。
Seedance 2.0的架构插入了隐式3D层:
-
输入处理: 图像、文本和视频参考被分析以提取3D场景描述符(粗略几何、光位置、材料属性)
-
场景表征: 双分支Transformer在2D像素预测旁边保持潜在3D表征
-
物理模拟: 光传输、摄影机投影和物体关系在此3D空间中计算
-
像素生成: 从3D表征渲染2D输出,确保物理一致性
结果不是完美的3D重建——它是近似的、学习到的3D,捕捉视频生成所需的基本空间关系。
实操演示:环境中的产品
挑战: 将一款奢侈腕表放置在木屋环境中的木桌上,窗户透入自然光。
Seedance 2.0方法:
上传参考图像:
- 腕表产品照(多个角度用于3D理解)
- 木桌纹理参考
- 显示期望光照的山木屋内部参考
启用导演模式并结构化提示词:
场景:山木屋内部,下午光线透过窗户
主体:木桌上的奢侈腕表,英雄构图
空间设置:
- 摄影机:45°角,50mm等效,桌面高度
- 腕表:画框中心,距窗户1米
- 窗户:摄影机左侧,投射自然光
- 背景:有景深的木屋内部
深度线索:
- 前景:桌面纹理,接触阴影
- 中景:有环境反射的腕表
- 背景:柔和的窗户景观,大气深度
物理属性:
- 腕表水晶:反射窗户和室内
- 金属表面:响应光照方向
- 木纹:光穿过表面
- 窗户玻璃:外部景观的轻微折射
Seedance 2.0生成:
输出显示正确的空间关系:
-
接触集成: 腕表在木纹上投射柔和的阴影,方向正确面向窗户光。木纹纹理显示适当的透视缩短。
-
环境反射: 腕表水晶显示窗户和木屋内部的扭曲但可识别的反射——不是通用高光,而是特定的环境特征。
-
深度分层: 窗外的背景元素显示大气雾霾。室内元素(椅子、壁炉)随距离正确缩放。
-
摄影机运动稳定性: 如用摄影机运动扩展,视差表现正确——近物体(腕表、桌子)比远物体(窗户景观)移动更多。
并排对比:深度演变
| 深度挑战 | Runway Gen-2 (2023) | Pika Labs (2024) | Seedance 2.0 (2026) |
|---|---|---|---|
| 接触阴影 | 经常缺失或方向错误 | 更好但不一致 | ~85%物理正确 |
| 环境反射 | 通用模式 | 场景感知但近似 | 特定且连贯 |
| 摄影机视差 | 有限或不稳定 | 基本实现 | 复杂场景稳健 |
| 尺度一致性 | ~60%准确 | ~70%准确 | ~90%准确 |
| 透明度/折射 | 经常不透明 | 部分透明 | 正确材料行为 |
| 遮挡处理 | 频繁错误 | 改进但脆弱 | 大多数场景可靠 |
原生2K:深度细节所在
深度感知依赖精细细节:
- 纹理渐变: 木纹、织物编织、随距离压缩的石表面
- 边缘定义: 锐利的近边缘,柔和的远边缘
- 微阴影: 小表面细节投射创造3D纹理的微小阴影
- 镜面高光: 随表面曲率变化的高光
在720p,这些线索被压缩成模糊。原生2K保留传达深度的渐变:
- 单个木纹线显示透视缩短
- 织物纹理在远处保持细节
- 表面瑕疵创造微阴影
- 曲面显示高光渐变
"平"与"深"之间的差异往往取决于这些精细线索是被保留还是丢失。
导演模式:控制3D空间
内部分镜表实现显式3D控制:
镜头1:
摄影机位置: [x: 0, y: 1.2, z: 2.0]
看向: [x: 0, y: 0.8, z: 0]
焦距: 50mm
主体位置: [x: 0, y: 0.8, z: 0]
主体旋转: [y: 15°]
环境:
类型: 山木屋
光源: 左侧窗户
氛围: 可见尘埃微粒
空间约束:
- 摄影机移动中保持主体尺度
- 保留与表面的接触阴影
- 环境反射必须匹配场景
- 背景景深雾霾与距离成比例
Seedance 2.0通过其隐式3D表征解释这些约束,生成尊重空间关系的输出。
速度实现深度探索
创建深度连贯场景传统上需要试错。用29秒生成时间,你可以:
- 用基本深度设置生成
- 审核空间连贯性问题
- 调整摄影机角度或主体位置
- 重新生成并比较
- 迭代直到深度"感觉对"
这个过程用Seedance 2.0可能需要10-15分钟。用4-5分钟生成时间,需要1-2小时——你会接受"足够好"而非"实际上连贯"。
你可以立即行动:构建空间连贯场景
第1步:通过参考提供3D信息
Seedance 2.0从以下提取空间理解:
- 同一物体的多个角度: 上传3-4个主体视图以建立3D形态
- 环境参考: 显示期望深度关系的图像
- 光照参考: 展示光如何与空间交互的照片
你提供的3D信息越多,空间连贯性越好。
第2步:使用这个深度聚焦提示词模板
空间概念: [整体3D排列]
摄影机:
位置: [相对于场景]
高度: [眼平/仰视/俯视]
移动: [静态/摇/推等]
主体放置:
位置: [在3D空间中]
朝向: [面对方向]
接触: [主体如何触碰环境]
深度层:
前景: [有细节的近元素]
中景: [主要主体和直接环境]
背景: [有氛围的远元素]
光照深度:
光源: [光从哪里来]
质量: [它如何包裹形态]
阴影: [方向和柔和度]
反射/折射:
- [表面如何与环境交互]
一致性检查:
- 尺度关系
- 阴影方向
- 接触集成
- 视差行为
第3步:审核深度连贯性
在接受生成输出之前,检查:
- 接触点: 主体是否在表面上投射适当的阴影?
- 反射: 反射表面是否显示环境适当的图像?
- 尺度: 远处物体是否看起来比近处物体适当更小?
- 氛围: 是否有景深适当的雾霾或清晰度?
- 运动: 如果摄影机移动,视差是否表现正确?
如任何检查失败,调整并重新生成。速度使这种迭代切实可行。
12个月预测:深度的地平线
2026年Q2: 显式深度图输入。提供粗略深度绘画或3D代理;Seedance 2.0生成尊重该几何的视频。
2026年Q3: 体积效果控制。以空间精度指定雾密度、光束散射、大气粒子。
2026年Q4: 反射探针模拟。上传环境HDRIs或360°捕捉;反射表面准确响应该特定环境。
2027年: 混合工作流。将AI生成元素与实时3D渲染结合,保持两者之间的连贯光照和深度。
系列导航:
- 上一篇:E08: 从慢到快:生成速度的颠覆
- 下一篇:E10: 从静到动:相机语言的掌握 →
本文是 Seedance 2.0 Masterclass:内容进化系列的一部分。
