返回博客
nano-banana
spatial-logic
physics
lighting
composition
architectural-visualization

从混乱到物理:AI 图像中的空间逻辑

为什么大多数 AI 生成的场景看起来'不对劲'——以及 Nano Banana 2 的空间推理如何终于让光影、透视和物体关系变得正确。

发布于 2026-02-28

从混乱到物理:AI 图像中的空间逻辑

空间的恐怖谷

看了足够多的 AI 生成图像,你会发展出第六感。某种东西感觉不对,在你能表达之前就察觉到了。

阴影向左,但窗户在右边。一个人站在通向 nowhere 的楼梯上。镜子里的反射显示的是完全不同的房间。物体略微悬浮在桌子上方。手以不可能的角度握着杯子。

AI 图像模型是纹理和风格的大师。但历史上,它们在物理方面很糟糕。

认识一下 Chen。他是上海的一名建筑可视化艺术家。2024 年,他用 AI 做室内渲染实验。他的提示词:"现代客厅,落地窗,阳光照进来,极简家具。"

结果看起来很美——第一眼。然后他的建筑师同事指出:

  • 阴影暗示太阳在地平线以下
  • 玻璃桌的反射显示的是完全不同的房间
  • 地板和天花板的透视线没有正确汇聚
  • 沙发在两个不同方向投下阴影

"它看起来像个梦,"他的同事说。"梦不遵循物理。"

Chen 花了 3 小时在 Photoshop 里修复错误。还不如从一开始就传统渲染。

这就是 2024 年 AI 图像生成的 dirty secret:表层美丽,物理 nonsense


为什么物理对 AI 很难

扩散模型的盲区

扩散模型(DALL-E、Midjourney、Stable Diffusion)学习模式,不学物理。它们在数十亿张图像上训练,学习:

  • "房间经常有窗户"
  • "窗户经常有光进来"
  • "光产生阴影"

但它们不学:

  • "光沿直线传播"
  • "阴影指向远离光源的方向"
  • "反射遵循反射定律"

所以它们生成"像阴影的纹理",看起来阴影感但不对应实际光源。它们生成"像反射的图案",看起来反光但不映射实际场景。

级联错误问题

一个小物理错误级联。如果光线方向错了,阴影就错了。如果阴影错了,物体放置看起来随机。如果物体随机,整个场景感觉假。

用户发展出无意识模式识别:"AI 图像" = "美丽但有点不对。"

人力成本

对于专业用例——建筑、产品可视化、电影预可视化——这些错误不是怪癖。它们是 deal-breaker。

  • 建筑客户:"为什么阳光照在北墙上?"
  • 产品摄影师:"反射显示的是不同产品。我们不能用这个。"
  • 电影导演:"透视不对。我没法规划镜头。"

每个都需要手动修正,往往抵消了 AI 生成节省的时间。


Nano Banana 2:空间推理引擎

从模式匹配到理解

Nano Banana 2 不只是识别视觉模式。它推理:

  • 光源:光从哪里来?什么颜色和强度?
  • 遮挡:什么遮挡什么?什么在前,什么在后?
  • 透视:平行线如何汇聚?相机角度是什么?
  • 反射:反光表面应该显示什么?
  • 尺度关系:物体 A 相对于物体 B 多大?

这不是后期处理。它是原生空间推理,内建在多模态架构中。

技术差异

传统扩散:

[提示词:"带窗户的房间"] → [生成与"房间"和"窗户"统计匹配的像素]

Nano Banana 2:

[提示词:"带窗户的房间"] → 
[理解:窗户是光源] →
[计算:光从 X 方向进入] →
[生成:与 X 方向一致的阴影] →
[验证:透视线正确汇聚]

它不只是生成。它是模拟


你可以立即行动

阴影测试

所需时间:5 分钟。成本:约 $0.15。

步骤 1:在任何 AI 工具中生成测试场景:

"一个人站在车旁,日落光线,长阴影"

步骤 2:检查阴影:

  • 它们都指向同一方向吗?
  • 它们的长度对应日落(长)vs 正午(短)吗?
  • 人的阴影与车的阴影对齐吗?

在大多数 2024 年工具中,你会发现不一致。

步骤 3:在 Nano Banana 2 中生成同样的提示词。

步骤 4:对比。阴影连贯性的差异是即时且明显的。

反射测试

步骤 1

"咖啡店内饰,人在桌旁看书,身后窗户显示城市街道"

步骤 2:检查窗户:

  • 它正确反射室内光线吗?
  • 人的反射与他们的实际姿势匹配吗?
  • 外面的街景与反射对齐吗?

Nano Banana 2 保持需要手动合成的反射连贯性。

透视测试

步骤 1

"两边有门的长走廊,低相机角度向下看"

步骤 2:检查透视:

  • 天花板、地板和门框向消失点汇聚吗?
  • 门的大小随距离减小吗?
  • 天花板高度看起来一致吗?

这是 Nano Banana 2 空间推理闪耀的地方。透视在几何上是连贯的,不是"大概对"。


空间逻辑实现了什么

建筑可视化

Chen 的新工作流:

T1: "现代办公室大堂,3 层挑高,南面玻璃幕墙"
T2: "晨光从玻璃墙进入,显示地板上的阴影"
T3: "中间加前台,天然木材质"
T4: "前台应该投下与晨光角度一致的阴影"
T5: "抛光地板加玻璃墙的反射"

每个元素尊重同一光源。阴影对齐。反射匹配。场景物理上可信。

Chen 的建筑师同事:"这个我能用。光线研究其实有用。"

产品摄影

电商团队需要真实场景中的产品:

"无线耳机在大理石台面上,咖啡馆背景,
左边自然窗户光"

对可信度至关重要:

  • 接触阴影:产品接触表面的地方
  • 反射:大理石应该反射耳机
  • 背景虚化:散景应该对暗示的相机设置光学正确
  • 光线包裹:面向窗户的边缘应该捕捉到光

Nano Banana 2 原生生成这些物理细节。其他工具需要手动添加或看起来微妙地假。

电影预可视化

导演需要规划镜头。物理连贯性很重要:

"过肩镜头,人看墙上的画,
戏剧性单顶光源"

对预视要有用:

  • 肩膀应该部分遮挡画(遮挡)
  • 画应该从上方受光,不是正面
  • 阴影应该向下落
  • 角度应该暗示真实相机位置

Nano Banana 2 的空间推理生成导演真正能用于规划的物理可信构图。


空间逻辑实践

光线场景

场景 1:一致光源

"餐厅日落时分,金色时刻光线透过西向窗户"

检查什么:

  • 所有阴影向东落(远离落日)
  • 被照亮表面温暖的色温
  • 凉爽的阴影(环境天光)
  • 长的阴影长度(低太阳角度)

场景 2:多光源

"夜晚厨房,温暖的柜底照明加窗户冷月光"

检查什么:

  • 两个不同的阴影方向
  • 光线重叠处颜色混合
  • 光源逻辑放置(上方橱柜,外面月亮)

场景 3:复杂反射

"镜子大厅,人站在中央"

检查什么:

  • 反射从正确角度显示人
  • 无限镜像反射遵循几何规则
  • 没有"不可能"的反射显示场景中不存在的东西

透视场景

场景 1:一点透视

"看火车月台,消失点在中央"

所有水平线应该向那个中央点汇聚。

场景 2:两点透视

"街上看建筑角落,仰视"

水平线向左和右消失点汇聚。垂直保持垂直。

场景 3:三点透视

"从地面直视摩天大楼"

增加垂直汇聚。传统 AI 很难。Nano Banana 2 连贯处理。

物体关系场景

场景 1:遮挡

"桌上堆叠的三本书,中间的书稍微拉出"

中间的书应该部分遮挡后面的书。顶部的书应该遮住中间的一部分。

场景 2:尺度一致

"猫坐在笔记本电脑旁"

猫应该相对于笔记本电脑大小合适。没有"巨型猫"或"微型笔记本电脑"。

场景 3:接触物理

"桌布上的酒杯"

酒杯底座应该轻微压陷桌布。接触应该看起来物理接地,不是悬浮。


对比:有和没有空间逻辑

测试案例:室内办公室

提示词:"现代办公室,下午阳光透过大窗户,人在办公桌前工作,角落有植物"

方面传统 AINano Banana 2
阴影方向不一致(暗示多光源)统一(单一连贯光源)
植物阴影与窗户位置不匹配与实际窗户位置对齐
桌面光线均匀照亮渐变(靠近窗户更亮)
人的阴影随机方向与其他阴影匹配
窗户反射通用天空与描述的时间匹配

测试案例:桌上产品

提示词:"木桌上的智能手机,顶光,咖啡馆背景"

方面传统 AINano Banana 2
接触阴影缺失或方向错误存在,与顶光一致
桌子反射通用模糊正确显示手机底部
背景虚化随机散景对暗示光圈光学可信
手机表面光线均匀顶光照到的地方高亮

空间逻辑最要紧的时候

必须有物理连贯性

用例为什么物理重要
建筑可视化客户评估光线和空间
产品摄影可信度需要物理合理性
电影预可视化导演基于预视规划真实镜头
科学插图准确性就是目的
教育内容错误物理教错误概念

有物理连贯性更好

用例可接受的权衡
社交媒体内容观众快速滚动
概念艺术艺术许可原谅一些错误
抽象图像物理可能不适用
装饰图像美胜过准确性

不需要物理连贯性

用例为什么物理不重要
超现实艺术不可能就是目的
梦境/幻想现实规则不适用
图案/纹理生成没有场景需要连贯

当前空间逻辑的限制

还在学习:复杂光学

  • 焦散:光通过玻璃/水聚焦(光池)
  • 次表面散射:光进入材料内部反射(皮肤、蜡)
  • 体积雾:穿过雾/尘的光束

Nano Banana 2 基础正确。高级光学现象还在进化。

还在学习:动态

静态场景效果最好。运动模糊、复杂物理的动作姿势(体育、碰撞)更难。

还在学习:尺度极端

微距摄影(昆虫眼睛)和天文摄影(星系尺度)推动训练数据连贯性的极限。


未来:物理感知生成

发展方向

2024:"生成看起来对的图像"

2026(Nano Banana 2):"生成物理连贯的图像"

2027-2028:"用准确物理模拟生成场景"(光传输、材料属性、动态)

轨迹:从外表到模拟。

影响

随着 AI 空间推理改进:

  • 建筑:AI 渲染对光线研究变得可靠
  • 电影:预视变得可生产
  • 电商:AI 产品照片与工作室摄影无法区分
  • 教育:AI 插图可以信任准确性

"AI 生成"和"物理准确"之间的线模糊。


系列导航

这是 Nano Banana 2 大师课系列的第 3 篇


物理是可信度鸿沟。它正在闭合。