返回博客

nano-banana

spatial-logic

physics

lighting

composition

architectural-visualization

从混乱到物理：AI 图像中的空间逻辑

为什么大多数 AI 生成的场景看起来'不对劲'——以及 Nano Banana 2 的空间推理如何终于让光影、透视和物体关系变得正确。

发布于 2026-02-28

从混乱到物理：AI 图像中的空间逻辑

空间的恐怖谷

看了足够多的 AI 生成图像，你会发展出第六感。某种东西感觉不对，在你能表达之前就察觉到了。

阴影向左，但窗户在右边。一个人站在通向 nowhere 的楼梯上。镜子里的反射显示的是完全不同的房间。物体略微悬浮在桌子上方。手以不可能的角度握着杯子。

AI 图像模型是纹理和风格的大师。但历史上，它们在物理方面很糟糕。

认识一下 Chen。他是上海的一名建筑可视化艺术家。2024 年，他用 AI 做室内渲染实验。他的提示词："现代客厅，落地窗，阳光照进来，极简家具。"

结果看起来很美——第一眼。然后他的建筑师同事指出：

阴影暗示太阳在地平线以下
玻璃桌的反射显示的是完全不同的房间
地板和天花板的透视线没有正确汇聚
沙发在两个不同方向投下阴影

"它看起来像个梦，"他的同事说。"梦不遵循物理。"

Chen 花了 3 小时在 Photoshop 里修复错误。还不如从一开始就传统渲染。

这就是 2024 年 AI 图像生成的 dirty secret：表层美丽，物理 nonsense。

为什么物理对 AI 很难

扩散模型的盲区

扩散模型（DALL-E、Midjourney、Stable Diffusion）学习模式，不学物理。它们在数十亿张图像上训练，学习：

"房间经常有窗户"
"窗户经常有光进来"
"光产生阴影"

但它们不学：

"光沿直线传播"
"阴影指向远离光源的方向"
"反射遵循反射定律"

所以它们生成"像阴影的纹理"，看起来阴影感但不对应实际光源。它们生成"像反射的图案"，看起来反光但不映射实际场景。

级联错误问题

一个小物理错误级联。如果光线方向错了，阴影就错了。如果阴影错了，物体放置看起来随机。如果物体随机，整个场景感觉假。

用户发展出无意识模式识别："AI 图像" = "美丽但有点不对。"

人力成本

对于专业用例——建筑、产品可视化、电影预可视化——这些错误不是怪癖。它们是 deal-breaker。

建筑客户："为什么阳光照在北墙上？"
产品摄影师："反射显示的是不同产品。我们不能用这个。"
电影导演："透视不对。我没法规划镜头。"

每个都需要手动修正，往往抵消了 AI 生成节省的时间。

Nano Banana 2：空间推理引擎

从模式匹配到理解

Nano Banana 2 不只是识别视觉模式。它推理：

光源：光从哪里来？什么颜色和强度？
遮挡：什么遮挡什么？什么在前，什么在后？
透视：平行线如何汇聚？相机角度是什么？
反射：反光表面应该显示什么？
尺度关系：物体 A 相对于物体 B 多大？

这不是后期处理。它是原生空间推理，内建在多模态架构中。

技术差异

传统扩散：

[提示词："带窗户的房间"] → [生成与"房间"和"窗户"统计匹配的像素]

Nano Banana 2：

[提示词："带窗户的房间"] → 
[理解：窗户是光源] →
[计算：光从 X 方向进入] →
[生成：与 X 方向一致的阴影] →
[验证：透视线正确汇聚]

它不只是生成。它是模拟。

你可以立即行动

阴影测试

所需时间：5 分钟。成本：约 $0.15。

步骤 1：在任何 AI 工具中生成测试场景：

"一个人站在车旁，日落光线，长阴影"

步骤 2：检查阴影：

它们都指向同一方向吗？
它们的长度对应日落（长）vs 正午（短）吗？
人的阴影与车的阴影对齐吗？

在大多数 2024 年工具中，你会发现不一致。

步骤 3：在 Nano Banana 2 中生成同样的提示词。

步骤 4：对比。阴影连贯性的差异是即时且明显的。

反射测试

步骤 1：

"咖啡店内饰，人在桌旁看书，身后窗户显示城市街道"

步骤 2：检查窗户：

它正确反射室内光线吗？
人的反射与他们的实际姿势匹配吗？
外面的街景与反射对齐吗？

Nano Banana 2 保持需要手动合成的反射连贯性。

透视测试

步骤 1：

"两边有门的长走廊，低相机角度向下看"

步骤 2：检查透视：

天花板、地板和门框向消失点汇聚吗？
门的大小随距离减小吗？
天花板高度看起来一致吗？

这是 Nano Banana 2 空间推理闪耀的地方。透视在几何上是连贯的，不是"大概对"。

空间逻辑实现了什么

建筑可视化

Chen 的新工作流：

T1: "现代办公室大堂，3 层挑高，南面玻璃幕墙"
T2: "晨光从玻璃墙进入，显示地板上的阴影"
T3: "中间加前台，天然木材质"
T4: "前台应该投下与晨光角度一致的阴影"
T5: "抛光地板加玻璃墙的反射"

每个元素尊重同一光源。阴影对齐。反射匹配。场景物理上可信。

Chen 的建筑师同事："这个我能用。光线研究其实有用。"

产品摄影

电商团队需要真实场景中的产品：

"无线耳机在大理石台面上，咖啡馆背景，
左边自然窗户光"

对可信度至关重要：

接触阴影：产品接触表面的地方
反射：大理石应该反射耳机
背景虚化：散景应该对暗示的相机设置光学正确
光线包裹：面向窗户的边缘应该捕捉到光

Nano Banana 2 原生生成这些物理细节。其他工具需要手动添加或看起来微妙地假。

电影预可视化

导演需要规划镜头。物理连贯性很重要：

"过肩镜头，人看墙上的画，
戏剧性单顶光源"

对预视要有用：

肩膀应该部分遮挡画（遮挡）
画应该从上方受光，不是正面
阴影应该向下落
角度应该暗示真实相机位置

Nano Banana 2 的空间推理生成导演真正能用于规划的物理可信构图。

空间逻辑实践

光线场景

场景 1：一致光源

"餐厅日落时分，金色时刻光线透过西向窗户"

检查什么：

所有阴影向东落（远离落日）
被照亮表面温暖的色温
凉爽的阴影（环境天光）
长的阴影长度（低太阳角度）

场景 2：多光源

"夜晚厨房，温暖的柜底照明加窗户冷月光"

检查什么：

两个不同的阴影方向
光线重叠处颜色混合
光源逻辑放置（上方橱柜，外面月亮）

场景 3：复杂反射

"镜子大厅，人站在中央"

检查什么：

反射从正确角度显示人
无限镜像反射遵循几何规则
没有"不可能"的反射显示场景中不存在的东西

透视场景

场景 1：一点透视

"看火车月台，消失点在中央"

所有水平线应该向那个中央点汇聚。

场景 2：两点透视

"街上看建筑角落，仰视"

水平线向左和右消失点汇聚。垂直保持垂直。

场景 3：三点透视

"从地面直视摩天大楼"

增加垂直汇聚。传统 AI 很难。Nano Banana 2 连贯处理。

物体关系场景

场景 1：遮挡

"桌上堆叠的三本书，中间的书稍微拉出"

中间的书应该部分遮挡后面的书。顶部的书应该遮住中间的一部分。

场景 2：尺度一致

"猫坐在笔记本电脑旁"

猫应该相对于笔记本电脑大小合适。没有"巨型猫"或"微型笔记本电脑"。

场景 3：接触物理

"桌布上的酒杯"

酒杯底座应该轻微压陷桌布。接触应该看起来物理接地，不是悬浮。

对比：有和没有空间逻辑

测试案例：室内办公室

提示词："现代办公室，下午阳光透过大窗户，人在办公桌前工作，角落有植物"

方面	传统 AI	Nano Banana 2
阴影方向	不一致（暗示多光源）	统一（单一连贯光源）
植物阴影	与窗户位置不匹配	与实际窗户位置对齐
桌面光线	均匀照亮	渐变（靠近窗户更亮）
人的阴影	随机方向	与其他阴影匹配
窗户反射	通用天空	与描述的时间匹配

测试案例：桌上产品

提示词："木桌上的智能手机，顶光，咖啡馆背景"

方面	传统 AI	Nano Banana 2
接触阴影	缺失或方向错误	存在，与顶光一致
桌子反射	通用模糊	正确显示手机底部
背景虚化	随机散景	对暗示光圈光学可信
手机表面光线	均匀	顶光照到的地方高亮

空间逻辑最要紧的时候

必须有物理连贯性

用例	为什么物理重要
建筑可视化	客户评估光线和空间
产品摄影	可信度需要物理合理性
电影预可视化	导演基于预视规划真实镜头
科学插图	准确性就是目的
教育内容	错误物理教错误概念

有物理连贯性更好

用例	可接受的权衡
社交媒体内容	观众快速滚动
概念艺术	艺术许可原谅一些错误
抽象图像	物理可能不适用
装饰图像	美胜过准确性

不需要物理连贯性

用例	为什么物理不重要
超现实艺术	不可能就是目的
梦境/幻想	现实规则不适用
图案/纹理生成	没有场景需要连贯

当前空间逻辑的限制

还在学习：复杂光学

焦散：光通过玻璃/水聚焦（光池）
次表面散射：光进入材料内部反射（皮肤、蜡）
体积雾：穿过雾/尘的光束

Nano Banana 2 基础正确。高级光学现象还在进化。

还在学习：动态

静态场景效果最好。运动模糊、复杂物理的动作姿势（体育、碰撞）更难。

还在学习：尺度极端

微距摄影（昆虫眼睛）和天文摄影（星系尺度）推动训练数据连贯性的极限。

未来：物理感知生成

发展方向

2024："生成看起来对的图像"

2026（Nano Banana 2）："生成物理连贯的图像"

2027-2028："用准确物理模拟生成场景"（光传输、材料属性、动态）

轨迹：从外表到模拟。

影响

随着 AI 空间推理改进：

建筑：AI 渲染对光线研究变得可靠
电影：预视变得可生产
电商：AI 产品照片与工作室摄影无法区分
教育：AI 插图可以信任准确性

"AI 生成"和"物理准确"之间的线模糊。

系列导航

这是 Nano Banana 2 大师课系列的第 3 篇。

上一篇：E02：从文生图到对话生图
下一篇：E04：从高价到每图几美分
系列总览：大师课索引

物理是可信度鸿沟。它正在闭合。