返回博客

nano-banana

spatial-logic

physics

lighting

composition

architectural-visualization

从混乱到物理：AI 图像中的空间逻辑

为什么大多数 AI 生成的场景看起来都有些'奇怪'，以及 Nano Banana 2 如何最终正确地处理光照、透视和物体关系。

发布于 2026-02-28

从混乱到物理：AI 图像中的空间逻辑

空间的诡异谷

看过足够多的 AI 生成图像后，你会养成第六感。在你能说出为什么之前，就能感觉出有些不对劲。

影子落在左边，但窗口在右边。一个人站在通往无处的楼梯上。镜子中的倒影显示了一个完全不同的房间。物体浮在桌子上方。手以不可能的角度拿着杯子。

AI 图像模型擅长纹理和风格。但从历史上看，它们在物理方面一直很糟糕。

认识一下 Chen。他是上海的一位建筑可视化艺术家。2024 年，他尝试将 AI 用于室内渲染。他的提示是："现代客厅，落地窗，阳光流入，极简主义家具。"

结果看起来很漂亮——乍一看。然后他的建筑师同事指出：

影子表明太阳在地平线以下
玻璃桌子的倒影显示了一个完全不同的房间
地板和天花板的透视线没有正确汇聚
沙发在两个不同的方向上投下了影子

"看起来像一场梦，"他的同事说。"梦不遵循物理规则。"

Chen 在 Photoshop 中花了 3 个小时来修复这些错误。还不如从一开始就用传统方式渲染它。

这是 2024 年代 AI 图像生成的肮脏秘密：表面上很美，物理上是胡言乱语。

为什么物理对 AI 来说很难

扩散模型的盲点

扩散模型（DALL-E、Midjourney、Stable Diffusion）学习的是模式，而不是物理。它们在数十亿张图像上训练，学到：

"房间通常有窗户"
"窗户通常有光照进来"
"光创造影子"

但它们没有学到：

"光沿直线传播"
"影子指向远离光源的地方"
"反射遵循反射定律"

所以它们生成"看起来像影子的纹理"，但不与实际光源相对应。它们生成"看起来有反射的图案"，但不反映实际场景。

复合误差问题

一个小的物理错误会级联。如果光线方向错误，影子就错误。如果影子错误，物体放置看起来随意。如果物体感觉随意，整个场景就显得虚假。

用户会养成无意识的模式识别："AI 图像"="漂亮但略有不对"。

人工成本

对于专业用例——建筑、产品可视化、电影概念设计——这些错误不是怪癖。它们是交易破坏者。

建筑客户："为什么阳光照在北墙上？"
产品摄影师："反射显示了不同的产品。我们不能用这个。"
电影导演："透视有问题。我无法规划镜头。"

每一个都需要手动修正，往往抵消了 AI 生成的时间节省。

Nano Banana 2：空间推理引擎

从模式匹配到理解

Nano Banana 2 不仅识别视觉模式。它还推理：

光源：光从哪里来？它的颜色和强度是什么？
遮挡：什么遮挡什么？什么在前面，什么在后面？
透视：平行线如何汇聚？摄像机角度是什么？
反射：反射表面上应该看到什么？
比例关系：物体 A 相对于物体 B 有多大？

这不是后期处理。这是内置于多模态架构中的原生空间推理。

技术区别

传统扩散：

[提示："带窗户的房间"] → [生成在统计上与"房间"和"窗户"匹配的像素]

Nano Banana 2：

[提示："带窗户的房间"] →
[理解：窗户是光源] →
[计算：光从方向 X 进入] →
[生成：与方向 X 一致的影子] →
[验证：透视线正确汇聚]

它不仅在生成。它在模拟。

你现在可以采取行动

影子测试

所需时间：5 分钟。成本：约 $0.15。

第 1 步：在任何 AI 工具中生成测试场景：

"一个人站在汽车旁边，日落光线，长影子"

第 2 步：检查影子：

它们都指向同一方向吗？
它们的长度与日落（长）vs 正午（短）对应吗？
人物的影子与汽车的影子对齐吗？

在大多数 2024 年代的工具中，你会发现不一致。

第 3 步：在 Nano Banana 2 中生成相同的提示。

第 4 步：比较。影子一致性的差异立竿见影。

反射测试

第 1 步：

"咖啡馆内部，一个人在桌子上阅读，他们身后的窗户显示城市街道"

第 2 步：检查窗口：

它是否正确反映了室内灯光？
人物的倒影是否与他们的实际姿势匹配？
外面的街道场景是否与倒影对齐？

Nano Banana 2 保持了反射的一致性，这在其他工具中需要手动合成。

透视测试

第 1 步：

"一条长走廊，两侧都有门，低摄像机角度向下看"

第 2 步：检查透视：

天花板、地板和门框是否朝向消失点汇聚？
门的大小是否随距离递减？
天花板的高度是否看起来一致？

这是 Nano Banana 2 的空间推理闪耀的地方。透视在几何上是一致的，不是"大致正确"。

空间逻辑能做什么

建筑可视化

Chen 的新工作流程：

T1："现代办公大堂，3 层楼高，南侧有玻璃幕墙"
T2："早晨光线从玻璃墙进入，显示地板上的影子"
T3："在中心添加接待台，天然木材"
T4："台子应该投下与早晨光线角度一致的影子"
T5："在抛光地板上添加玻璃墙的倒影"

每个元素都遵循相同的光源。影子对齐。反射匹配。场景在物理上是可信的。

Chen 的建筑师同事："这个我可以用。照明研究确实很有用。"

产品摄影

电子商务团队需要在逼真的背景中展示产品：

"无线耳塞放在大理石台面上，咖啡馆背景，
从左边进来的自然窗光"

对可信度至关重要：

接触影子：产品与表面相接处
反射：大理石应该反射耳塞
背景虚化：Bokeh 应该光学上对得上隐含的摄像机设置
光包裹：面向窗户的边缘应该捕捉光线

Nano Banana 2 原生地生成这些物理细节。其他工具需要手动添加或看起来略微虚假。

电影概念设计

导演需要规划镜头。物理一致性很重要：

"肩头镜头，一个人看着墙上的画，
来自单一头顶光源的戏剧性光线"

为了让概念设计有用：

肩膀应该部分遮挡画（遮挡）
画应该从上方照亮，而不是正面照亮
影子应该向下落
角度应该暗示真实的摄像机位置

Nano Banana 2 的空间推理生成物理上可信的构图，导演可以实际用于规划。

空间逻辑的实践

照明场景

场景 1：一致的光源

"日落时的餐厅，金色时刻光线透过朝西的窗户流入"

检查内容：

所有影子向东落下（远离夕阳）
被照亮表面的温暖色温
较冷的影子（环境天光）
长影子长度（太阳角度低）

场景 2：多个光源

"夜晚的厨房，温暖的橱柜下照明加上来自窗户的冷月光"

检查内容：

两个不同的影子方向
光线重叠的地方有颜色混合
光源的逻辑位置（橱柜上方，月亮外面）

场景 3：复杂的反射

"镜子走廊，一个人站在中心"

检查内容：

反射从正确的角度显示人物
无限镜子反射遵循几何规则
没有显示场景中不存在的事物的"不可能"反射

透视场景

场景 1：一点透视

"沿着火车站台往下看，消失点在中心"

所有水平线应该汇聚到该中心点。

场景 2：两点透视

"从街道水平线看建筑物的角落，向上看"

水平线汇聚到左右消失点。竖直线保持竖直。

场景 3：三点透视

"从地面向上直视摩天大楼"

增加竖直汇聚。对传统 AI 来说很难。Nano Banana 2 能够连贯地处理。

物体关系场景

场景 1：遮挡

"三本书堆叠在桌子上，中间的书略微拉出"

中间的书应该部分遮挡后面的书。顶部的书应该覆盖中间书的一部分。

场景 2：比例一致性

"一只猫坐在笔记本电脑旁边"

猫的大小应该与笔记本电脑相比是合适的。没有"巨大的猫"或"微小的笔记本"。

场景 3：接触物理

"一个酒杯放在桌布上"

玻璃底部应该略微压下桌布。接触应该看起来物理上是扎根的，而不是悬浮的。

比较：有和没有空间逻辑

测试用例：办公室内部

提示："现代办公室，下午阳光透过大窗户，一个人在办公桌前工作，角落里有植物"

方面	传统 AI	Nano Banana 2
影子方向	不一致（暗示多个光源）	统一（单一连贯光源）
植物影子	不与窗口位置匹配	与实际窗口位置对齐
办公桌表面照明	均匀照亮	渐变（靠近窗户较亮）
人物影子	随意方向	与其他影子匹配
窗户反射	通用天空	与描述的时间相匹配

测试用例：桌子上的产品

提示："智能手机放在木桌上，头顶照明，咖啡馆背景"

方面	传统 AI	Nano Banana 2
接触影子	缺失或方向错误	存在，与头顶灯一致
桌面反射	通用模糊	正确显示手机底部
背景虚化	随机 bokeh	光学上与隐含光圈相符
手机表面的光	均匀	头顶光线击中的地方有高光

空间逻辑最重要的时候

必须具有物理一致性

用例	为什么物理很重要
建筑可视化	客户评估照明和空间
产品摄影	可信度需要物理合理性
电影概念设计	导演基于概念规划真实镜头
科学插图	准确性是关键
教育内容	错误的物理教导错误的概念

很好有物理一致性

用例	可接受的折衷
社交媒体内容	观众快速滚动
概念艺术	艺术许可证弥补一些错误
抽象图像	物理可能不适用
装饰性图像	美感胜过准确性

不需要物理一致性

用例	为什么物理不重要
超现实艺术	不可能是重点
梦境/幻想	现实规则不适用
图案/纹理生成	没有场景需要一致

当前空间逻辑的局限

仍在学习：复杂光学

焦散：通过玻璃/水聚焦光线（光的池塘）
次表面散射：光进入材料内并反弹（皮肤、蜡）
体积光：光束通过雾/灰尘

Nano Banana 2 把基础做对了。高级光学现象仍在发展。

仍在学习：动力学

静止场景效果最好。运动模糊、复杂物理的动作姿势（运动、碰撞）更难。

仍在学习：极端尺度

微观摄影（昆虫眼睛）和天体摄影（星系尺度）突破了训练数据一致性的极限。

未来：物理感知生成

走向何方

2024 年："生成一个看起来正确的图像"

2026 年（Nano Banana 2）："生成一个物理上一致的图像"

2027-2028 年："生成具有准确物理模拟的场景"（光传输、材料属性、动力学）

轨迹：从外观到模拟。

影响

随着 AI 空间推理的改进：

建筑：AI 生成的渲染变成可靠的照明研究
电影：概念设计变成制作就绪
电商：AI 产品照片与工作室摄影不可区分
教育：AI 插图可以信任的准确性

"AI 生成"和"物理准确"之间的界限模糊了。

系列导航

这是 Nano Banana 2 Masterclass 系列的第 3 篇文章。

前一篇：E02：从文本到图像到对话到图像
下一篇：E04：从高级定价到每张图像几分钱
系列概览：Masterclass 索引

物理是可信度的差距。它正在缩小。