返回部落格

nano-banana

spatial-logic

physics

lighting

composition

architectural-visualization

從混亂到物理：AI 圖像中的空間邏輯

為什麼大多數 AI 生成的場景看起來都有些'奇怪'，以及 Nano Banana 2 如何最終正確地處理光照、透視和物體關係。

發布於 2026-02-28

從混亂到物理：AI 圖像中的空間邏輯

空間的詭異谷

看過足夠多的 AI 生成圖像後，你會養成第六感。在你能說出為什麼之前，就能感覺出有些不對勁。

陰影落在左邊，但窗口在右邊。一個人站在通往無處的樓梯上。鏡子中的倒影顯示了一個完全不同的房間。物體浮在桌子上方。手以不可能的角度拿著杯子。

AI 圖像模型擅長紋理和風格。但從歷史上看，它們在物理方面一直很糟糕。

認識一下 Chen。他是上海的一位建築可視化藝術家。2024 年，他嘗試將 AI 用於室內渲染。他的提示是："現代客廳，落地窗，陽光流入，極簡主義家具。"

結果看起來很漂亮——乍一看。然後他的建築師同事指出：

陰影表明太陽在地平線以下
玻璃桌子的倒影顯示了一個完全不同的房間
地板和天花板的��視線沒有正確匯聚
沙發在兩個不同的方向上投下了陰影

"看起來像一場夢，"他的同事說。"夢不遵循物理規則。"

Chen 在 Photoshop 中花了 3 個小時來修復這些錯誤。還不如從一開始就用傳統方式渲染它。

這是 2024 年代 AI 圖像生成的骯髒秘密：表面上很美，物理上是胡言亂語。

為什麼物理對 AI 來說很難

擴散模型的盲點

擴散模型（DALL-E、Midjourney、Stable Diffusion）學習的是模式，而不是物理。它們在數十億張圖像上訓練，學到：

"房間通常有窗戶"
"窗戶通��有光照進來"
"光創造陰影"

但它們沒有學到：

"光沿直線傳播"
"陰影指向遠離光源的地��"
"反射遵循反射定律"

所以它們生成"看起來像陰影的紋理"，但不與實際光源相��應。它們生成"看起來有反射的圖案"，但不反映實際場景。

複合誤差問題

一個小的物理錯誤會級聯。如果光線方向錯誤，陰影就錯誤。如果陰影錯誤，物體放置看起來隨意。如果物體感覺隨意，整個場景就顯得虛假。

用戶會養成無意識的模式識別："AI 圖像"="漂亮但略有不對"。

人工成本

對於專業用例——建築、產品可視化、電影概念設計——這些錯誤不是怪癖。它們是交易破壞者。

建築客戶："為什麼陽光照在北牆上？"
產品攝影師："反射顯示了不同的產品。我們不能用這個。"
電影導演："透視有問題。我無法規劃鏡頭。"

每一個都需要手動修正，往往抵消了 AI 生成的時間節省。

Nano Banana 2：空間推理引擎

從模式匹配到理解

Nano Banana 2 不僅識別視覺模式。它還推理：

光源：光從哪裡來？它的顏色和強度是什麼？
遮擋：什麼遮擋什麼？什麼在前面，什麼在後面？
透視：平行線如何匯聚？攝像機角度是什麼？
反射：反射表面上應該看到什麼？
比例關係：物體 A 相對於物體 B 有多大？

這不是後期處理。這是內置於多模態架構中的原生空間推理。

技術區別

傳統擴散：

[提示："帶窗戶的房間"] → [生成在統計上與"房間"和"窗戶"匹配的像素]

Nano Banana 2：

[提示："帶窗戶的房間"] →
[理解：窗戶是光源] →
[計算：光從方向 X 進入] →
[生成：與方向 X 一致的陰影] →
[驗證：透視線正確匯聚]

它不僅在生成。它在模擬。

你現在可以採取行動

陰影測試

所需時間：5 分鐘。成本：約 $0.15。

第 1 步：在任何 AI 工具中生成測試場景：

"一個人站在汽車旁邊，日落光線，長陰影"

第 2 步：檢查陰影：

它們都指向同一方向嗎？
它們的長度與日落（長）vs 正午（短）對應嗎？
人物的陰影與汽車的陰影對齊嗎？

在大多數 2024 年代的工具中，你會發現不一致。

第 3 步：在 Nano Banana 2 中生成相同的提示。

第 4 步：比較。陰影一致性的差異立竿見影。

反射測試

第 1 步：

"咖啡館內部，一個人在桌子上閱讀，他們身後的窗戶顯示城市街道"

第 2 步：檢查窗口：

它是否正確反映了室內燈光？
人物的倒影是否與他們的實際姿勢匹配？
外面的街道場景是否與倒影對齊？

Nano Banana 2 保持了反射的一致性，這在其他工具中需要手動合成。

透視測試

第 1 步：

"一條長走廊，兩側都有門，低攝像機角度向下看"

第 2 步：檢查透視：

天花板、地板和門框是否朝向消失點匯聚？
門的大小是否隨距離遞減？
天花板的高度是否看起來一致？

這是 Nano Banana 2 的空間推理閃耀的地方。透視在幾何上是一致的，不是"大致正確"。

空間邏輯能做什麼

建築可視化

Chen 的新工作流程：

T1："現代辦公大堂，3 層樓高，南側有玻璃幕牆"
T2："早晨光線從玻璃牆進入，顯示地板上的陰影"
T3："在中心添加接待台，天然木材"
T4："台子應該投下與早晨光線角度一致的陰影"
T5："在拋光地板上添加玻璃牆的倒影"

每個元素都遵循相同的光源。陰影對齊。反射匹配。場景在物理上是可信的。

Chen 的建築師同事："這個我可以用。照明研究確實很有用。"

產品攝影

電子商務團隊需要在逼真的背景中展示產品：

"無線耳塞放在大理石台面上，咖啡館背景，
從左邊進來的自然窗光"

對可信度至關重要：

接觸陰影：產品與表面相接處
反射：大理石應該反射耳塞
背景虛化：Bokeh 應該光學上對得上隱含的攝像機設置
光包裹：面向窗戶的邊緣應該捕捉光線

Nano Banana 2 原生地生成這些物理細節。其他工具需要手動添加或看起來略微虛假。

電影概念設計

導演需要規劃鏡頭。物理一致性很重要：

"肩頭鏡頭，一個人看著牆上的畫，
來自單一頭頂光源的戲劇性光線"

為了讓概念設計有用：

肩膀應該部分遮擋畫（遮擋）
畫應該從上方照亮，而不是正面照亮
陰影應該向下落
角度應該暗示真實的攝像機位置

Nano Banana 2 的空間推理生成物理上可信的構圖，導演可以實際用於規劃。

空間邏輯的實踐

照明場景

場景 1：一致的光源

"日落時的餐廳，金色時刻光線透過朝西的窗戶流入"

檢查內容：

所有陰影向東落下（遠離夕陽）
被照亮表面的溫暖色溫
較冷的陰影（環境天光）
長陰影長度（太陽角度低）

場景 2：多個光源

"夜晚的廚房，溫暖的櫥櫃下照明加上來自窗戶的冷月光"

檢查內容：

兩個不同的陰影方向
光線重疊的地方有顏色混合
光源的邏輯位置（櫥櫃上方，月亮外面）

場景 3：複雜的反射

"鏡子走廊，一個人站在中心"

檢查內容：

反射從正確的角度顯示人物
無限鏡子反射遵循幾何規則
沒有顯示場景中不存在的事物的"不可能"反射

透視場景

場景 1：一點透視

"沿著火車站台往下看，消失點在中心"

所有水平線應該匯聚到該中心點。

場景 2：兩點透視

"從街道水平線看建築物的角落，向上看"

水平線匯聚到左右消失點。豎直線保持豎直。

場景 3：三點透視

"從地面向上直視摩天大樓"

增加豎直匯聚。對傳統 AI 來說很難。Nano Banana 2 能夠連貫地處理。

物體關係場景

場景 1：遮擋

"三本書堆疊在桌子上，中間的書略微拉出"

中間的書應該部分遮擋後面的書。頂部的書應該覆蓋中間書的一部分。

場景 2：比例一致性

"一隻貓坐在筆記本電腦旁邊"

貓的大小應該與筆記本電腦相比是合適的。沒有"巨大的貓"或"微小的筆記本"。

場景 3：接觸物理

"一個酒杯放在桌布上"

玻璃底部應該略微壓下桌布。接觸應該看起來物理上是紮根的，而不是懸浮的。

比較：有和沒有空間邏輯

測試用例：辦公室內部

提示："現代辦公室，下午陽光透過大窗戶，一個人在辦公桌前工作，角落裡有植物"

方面	傳統 AI	Nano Banana 2
陰影方向	不一致（暗示多個光源）	統一（單一連貫光源）
植物陰影	不與窗口位置匹配	與實際窗口位置對齊
辦公桌表面照明	均勻照亮	漸變（靠近窗戶較亮）
人物陰影	隨意方向	與其他陰影匹配
窗戶反射	通用天空	與描述的時間相匹配

測試用例：桌子上的產品

提示："智能手機放在木桌上，頭頂照明，咖啡館背景"

方面	傳統 AI	Nano Banana 2
接觸陰影	缺失或方向錯誤	存在，與頭頂燈一致
桌面反射	通用模糊	正確顯示手機底部
背景虛化	隨機 bokeh	光學上與隱含光圈相符
手機表面的光	均勻	頭頂光線擊中的地方有高光

空間邏輯最重要的時候

必須具有物理一致性

用例	為什麼物理很重要
建築可視化	客戶評估照明和空間
產品攝影	可信度需要物理合理性
電影概念設計	導演基於概念規劃真實鏡頭
科學插圖	準確性是關鍵
教育內容	錯誤的物理教導錯誤的概念

很好有物理一致性

用例	可接受的折衷
社交媒體內容	觀眾快速滾動
概念藝術	藝術許可證彌補一些錯誤
抽象圖像	物理可能不適用
裝飾性圖像	美感勝過準確性

不需要物理一致性

用例	為什麼物理不重要
超現實藝術	不可能是重點
夢境/幻想	現實規則不適用
圖案/紋理生成	沒有場景需要一致

當前空間邏輯的局限

仍在學習：複雜光學

焦散：通過玻璃/水聚焦光線（光的池塘）
次表面散射：光進入材料內並反彈（皮膚、蠟）
體積光：光束通過霧/灰塵

Nano Banana 2 把基礎做對了。高級光學現象仍在發展。

仍在學習：動力學

靜止場景效果最好。運動模糊、複雜物理的動作姿勢（運動、碰撞）更難。

仍在學習：極端尺度

微觀攝影（昆蟲眼睛）和天體攝影（星系尺度）突破了訓練數據一致性的極限。

未來：物理感知生成

走向何方

2024 年："生成一個看起來正確的圖像"

2026 年（Nano Banana 2）："生成一個物理上一致的圖像"

2027-2028 年："生成具有準確物理模擬的場景"（光傳輸、材料屬性、動力學）

軌跡：從外觀到模擬。

影響

隨著 AI 空間推理的改進：

建築：AI 生成的渲染變成可靠的照明研究
電影：概念設計變成製作就緒
電商：AI 產品照片與工作室攝影不可區分
教育：AI 插圖可以信任的準確性

"AI 生成"和"物理準確"之間的界限模糊了。

系列導航

這是 Nano Banana 2 Masterclass 系列的第 3 篇文章。

前一篇：E02：從文本到圖像到對話到圖像
下一篇：E04：從高級定價到每張圖像幾分錢
系列概覽：Masterclass 索引

物理是可信度的差距。它正在縮小。