返回博客
nano-banana
spatial-logic
physics
lighting
composition
architectural-visualization

从混乱到物理:AI 图像中的空间逻辑

为什么大多数 AI 生成的场景看起来都有些'奇怪',以及 Nano Banana 2 如何最终正确地处理光照、透视和物体关系。

发布于 2026-02-28

从混乱到物理:AI 图像中的空间逻辑

空间的诡异谷

看过足够多的 AI 生成图像后,你会养成第六感。在你能说出为什么之前,就能感觉出有些不对劲。

影子落在左边,但窗口在右边。一个人站在通往无处的楼梯上。镜子中的倒影显示了一个完全不同的房间。物体浮在桌子上方。手以不可能的角度拿着杯子。

AI 图像模型擅长纹理和风格。但从历史上看,它们在物理方面一直很糟糕。

认识一下 Chen。他是上海的一位建筑可视化艺术家。2024 年,他尝试将 AI 用于室内渲染。他的提示是:"现代客厅,落地窗,阳光流入,极简主义家具。"

结果看起来很漂亮——乍一看。然后他的建筑师同事指出:

  • 影子表明太阳在地平线以下
  • 玻璃桌子的倒影显示了一个完全不同的房间
  • 地板和天花板的透视线没有正确汇聚
  • 沙发在两个不同的方向上投下了影子

"看起来像一场梦,"他的同事说。"梦不遵循物理规则。"

Chen 在 Photoshop 中花了 3 个小时来修复这些错误。还不如从一开始就用传统方式渲染它。

这是 2024 年代 AI 图像生成的肮脏秘密:表面上很美,物理上是胡言乱语


为什么物理对 AI 来说很难

扩散模型的盲点

扩散模型(DALL-E、Midjourney、Stable Diffusion)学习的是模式,而不是物理。它们在数十亿张图像上训练,学到:

  • "房间通常有窗户"
  • "窗户通常有光照进来"
  • "光创造影子"

但它们没有学到:

  • "光沿直线传播"
  • "影子指向远离光源的地方"
  • "反射遵循反射定律"

所以它们生成"看起来像影子的纹理",但不与实际光源相对应。它们生成"看起来有反射的图案",但不反映实际场景。

复合误差问题

一个小的物理错误会级联。如果光线方向错误,影子就错误。如果影子错误,物体放置看起来随意。如果物体感觉随意,整个场景就显得虚假。

用户会养成无意识的模式识别:"AI 图像"="漂亮但略有不对"。

人工成本

对于专业用例——建筑、产品可视化、电影概念设计——这些错误不是怪癖。它们是交易破坏者。

  • 建筑客户:"为什么阳光照在北墙上?"
  • 产品摄影师:"反射显示了不同的产品。我们不能用这个。"
  • 电影导演:"透视有问题。我无法规划镜头。"

每一个都需要手动修正,往往抵消了 AI 生成的时间节省。


Nano Banana 2:空间推理引擎

从模式匹配到理解

Nano Banana 2 不仅识别视觉模式。它还推理:

  • 光源:光从哪里来?它的颜色和强度是什么?
  • 遮挡:什么遮挡什么?什么在前面,什么在后面?
  • 透视:平行线如何汇聚?摄像机角度是什么?
  • 反射:反射表面上应该看到什么?
  • 比例关系:物体 A 相对于物体 B 有多大?

这不是后期处理。这是内置于多模态架构中的原生空间推理

技术区别

传统扩散:

[提示:"带窗户的房间"] → [生成在统计上与"房间"和"窗户"匹配的像素]

Nano Banana 2:

[提示:"带窗户的房间"] →
[理解:窗户是光源] →
[计算:光从方向 X 进入] →
[生成:与方向 X 一致的影子] →
[验证:透视线正确汇聚]

它不仅在生成。它在模拟


你现在可以采取行动

影子测试

所需时间:5 分钟。成本:约 $0.15。

第 1 步:在任何 AI 工具中生成测试场景:

"一个人站在汽车旁边,日落光线,长影子"

第 2 步:检查影子:

  • 它们都指向同一方向吗?
  • 它们的长度与日落(长)vs 正午(短)对应吗?
  • 人物的影子与汽车的影子对齐吗?

在大多数 2024 年代的工具中,你会发现不一致。

第 3 步:在 Nano Banana 2 中生成相同的提示。

第 4 步:比较。影子一致性的差异立竿见影。

反射测试

第 1 步

"咖啡馆内部,一个人在桌子上阅读,他们身后的窗户显示城市街道"

第 2 步:检查窗口:

  • 它是否正确反映了室内灯光?
  • 人物的倒影是否与他们的实际姿势匹配?
  • 外面的街道场景是否与倒影对齐?

Nano Banana 2 保持了反射的一致性,这在其他工具中需要手动合成。

透视测试

第 1 步

"一条长走廊,两侧都有门,低摄像机角度向下看"

第 2 步:检查透视:

  • 天花板、地板和门框是否朝向消失点汇聚?
  • 门的大小是否随距离递减?
  • 天花板的高度是否看起来一致?

这是 Nano Banana 2 的空间推理闪耀的地方。透视在几何上是一致的,不是"大致正确"。


空间逻辑能做什么

建筑可视化

Chen 的新工作流程:

T1:"现代办公大堂,3 层楼高,南侧有玻璃幕墙"
T2:"早晨光线从玻璃墙进入,显示地板上的影子"
T3:"在中心添加接待台,天然木材"
T4:"台子应该投下与早晨光线角度一致的影子"
T5:"在抛光地板上添加玻璃墙的倒影"

每个元素都遵循相同的光源。影子对齐。反射匹配。场景在物理上是可信的。

Chen 的建筑师同事:"这个我可以用。照明研究确实很有用。"

产品摄影

电子商务团队需要在逼真的背景中展示产品:

"无线耳塞放在大理石台面上,咖啡馆背景,
从左边进来的自然窗光"

对可信度至关重要:

  • 接触影子:产品与表面相接处
  • 反射:大理石应该反射耳塞
  • 背景虚化:Bokeh 应该光学上对得上隐含的摄像机设置
  • 光包裹:面向窗户的边缘应该捕捉光线

Nano Banana 2 原生地生成这些物理细节。其他工具需要手动添加或看起来略微虚假。

电影概念设计

导演需要规划镜头。物理一致性很重要:

"肩头镜头,一个人看着墙上的画,
来自单一头顶光源的戏剧性光线"

为了让概念设计有用:

  • 肩膀应该部分遮挡画(遮挡)
  • 画应该从上方照亮,而不是正面照亮
  • 影子应该向下落
  • 角度应该暗示真实的摄像机位置

Nano Banana 2 的空间推理生成物理上可信的构图,导演可以实际用于规划。


空间逻辑的实践

照明场景

场景 1:一致的光源

"日落时的餐厅,金色时刻光线透过朝西的窗户流入"

检查内容:

  • 所有影子向东落下(远离夕阳)
  • 被照亮表面的温暖色温
  • 较冷的影子(环境天光)
  • 长影子长度(太阳角度低)

场景 2:多个光源

"夜晚的厨房,温暖的橱柜下照明加上来自窗户的冷月光"

检查内容:

  • 两个不同的影子方向
  • 光线重叠的地方有颜色混合
  • 光源的逻辑位置(橱柜上方,月亮外面)

场景 3:复杂的反射

"镜子走廊,一个人站在中心"

检查内容:

  • 反射从正确的角度显示人物
  • 无限镜子反射遵循几何规则
  • 没有显示场景中不存在的事物的"不可能"反射

透视场景

场景 1:一点透视

"沿着火车站台往下看,消失点在中心"

所有水平线应该汇聚到该中心点。

场景 2:两点透视

"从街道水平线看建筑物的角落,向上看"

水平线汇聚到左右消失点。竖直线保持竖直。

场景 3:三点透视

"从地面向上直视摩天大楼"

增加竖直汇聚。对传统 AI 来说很难。Nano Banana 2 能够连贯地处理。

物体关系场景

场景 1:遮挡

"三本书堆叠在桌子上,中间的书略微拉出"

中间的书应该部分遮挡后面的书。顶部的书应该覆盖中间书的一部分。

场景 2:比例一致性

"一只猫坐在笔记本电脑旁边"

猫的大小应该与笔记本电脑相比是合适的。没有"巨大的猫"或"微小的笔记本"。

场景 3:接触物理

"一个酒杯放在桌布上"

玻璃底部应该略微压下桌布。接触应该看起来物理上是扎根的,而不是悬浮的。


比较:有和没有空间逻辑

测试用例:办公室内部

提示:"现代办公室,下午阳光透过大窗户,一个人在办公桌前工作,角落里有植物"

方面传统 AINano Banana 2
影子方向不一致(暗示多个光源)统一(单一连贯光源)
植物影子不与窗口位置匹配与实际窗口位置对齐
办公桌表面照明均匀照亮渐变(靠近窗户较亮)
人物影子随意方向与其他影子匹配
窗户反射通用天空与描述的时间相匹配

测试用例:桌子上的产品

提示:"智能手机放在木桌上,头顶照明,咖啡馆背景"

方面传统 AINano Banana 2
接触影子缺失或方向错误存在,与头顶灯一致
桌面反射通用模糊正确显示手机底部
背景虚化随机 bokeh光学上与隐含光圈相符
手机表面的光均匀头顶光线击中的地方有高光

空间逻辑最重要的时候

必须具有物理一致性

用例为什么物理很重要
建筑可视化客户评估照明和空间
产品摄影可信度需要物理合理性
电影概念设计导演基于概念规划真实镜头
科学插图准确性是关键
教育内容错误的物理教导错误的概念

很好有物理一致性

用例可接受的折衷
社交媒体内容观众快速滚动
概念艺术艺术许可证弥补一些错误
抽象图像物理可能不适用
装饰性图像美感胜过准确性

不需要物理一致性

用例为什么物理不重要
超现实艺术不可能是重点
梦境/幻想现实规则不适用
图案/纹理生成没有场景需要一致

当前空间逻辑的局限

仍在学习:复杂光学

  • 焦散:通过玻璃/水聚焦光线(光的池塘)
  • 次表面散射:光进入材料内并反弹(皮肤、蜡)
  • 体积光:光束通过雾/灰尘

Nano Banana 2 把基础做对了。高级光学现象仍在发展。

仍在学习:动力学

静止场景效果最好。运动模糊、复杂物理的动作姿势(运动、碰撞)更难。

仍在学习:极端尺度

微观摄影(昆虫眼睛)和天体摄影(星系尺度)突破了训练数据一致性的极限。


未来:物理感知生成

走向何方

2024 年:"生成一个看起来正确的图像"

2026 年(Nano Banana 2):"生成一个物理上一致的图像"

2027-2028 年:"生成具有准确物理模拟的场景"(光传输、材料属性、动力学)

轨迹:从外观到模拟。

影响

随着 AI 空间推理的改进:

  • 建筑:AI 生成的渲染变成可靠的照明研究
  • 电影:概念设计变成制作就绪
  • 电商:AI 产品照片与工作室摄影不可区分
  • 教育:AI 插图可以信任的准确性

"AI 生成"和"物理准确"之间的界限模糊了。


系列导航

这是 Nano Banana 2 Masterclass 系列的第 3 篇文章


物理是可信度的差距。它正在缩小。