カオスから物理学へ:AI 画像の空間論理
なぜほとんどの AI 生成シーンが『違和感』を持つのか——そして Nano Banana 2 の空間推論がどうやって照明、遠近法、物体の関係性を正しく理解するようになったか。
公開日 2026-02-28
カオスから物理学へ:AI 画像の空間論理
空間の不気味の谷
十分な AI 生成画像を見ると、第六感が発達します。何かが言葉にする前に間違っていると感じます。
影が左に落ちているが、窓は右にある。人物がどこにも続かない階段に立っている。鏡の反射がまったく違う部屋を映している。物体がテーブルの上に少し浮いている。手が不可能な角度でカップを持っている。
AI 画像モデルはテクスチャとスタイルの達人です。しかし歴史的に、物理学は苦手でした。
チェンに会いましょう。彼は上海の建築ビジュアライゼーションアーティストです。2024 年、彼は AI をインテリアレンダリングに試しました。彼のプロンプト:「モダンなリビングルーム、天井から床までの窓、差し込む日光、ミニマリスト家具」。
結果は美しく見えました——一見すると。それから彼の建築家の同僚が指摘しました:
- 影が地平線下の太陽を示唆していた
- ガラステーブルの反射がまったく違う部屋を映していた
- 床と天井の遠近線が正しく収束していなかった
- ソファが 2 つの異なる方向に影を落としていた
「夢のように見える」と彼の同僚は言いました。「夢は物理学に従いません。」
チェンは Photoshop でエラーを修正するのに 3 時間費やしました。最初から従来の方法でレンダリングした方がよかったかもしれません。
これが 2024 年の AI 画像生成の汚れた秘密です:表面的な美しさ、物理的なナンセンス。
なぜ物理学は AI にとって難しいのか
拡散モデルの盲点
拡散モデル(DALL-E、Midjourney、Stable Diffusion)はパターンを学びますが、物理学は学びません。数十億の画像でトレーニングされ、以下を学びます:
- "部屋には窓があることが多い"
- "窓には光が差し込むことが多い"
- "光は影を作る"
しかし、以下は学びません:
- "光は直進する"
- "影は光源から離れて向かう"
- "反射は反射の法則に従う"
だから彼らは「影のようなテクスチャ」を生成します——影のようには見えますが、実際の光源には対応していません。彼らは「反射のようなパターン」を生成します——反射のようには見えますが、実際のシーンを映していません。
累積エラー問題
1 つの小さな物理学エラーが連鎖します。光の方向が間違っていると、影が間違います。影が間違っていると、物体の配置がランダムに見えます。物体がランダムに感じられると、シーン全体が偽物に感じられます。
ユーザーは無意識のパターン認識を発達させます:"AI 画像" = "美しいが少し違う。"
人間的コスト
プロの使用シーン——建築、プロダクトビジュアライゼーション、映画プレビジュアライゼーション——では、これらのエラーは癖ではありません。取引破棄です。
- 建築クライアント:"なぜ日光が北壁に当たるのですか?"
- プロダクト写真家:"反射が違うプロダクトを映しています。これは使えません。"
- 映画監督:"遠近法がずれています。ショットを計画できません。"
それぞれが手動修正を必要とし、しばしば AI 生成の時間節約を打ち消します。
Nano Banana 2:空間推論エンジン
パターンマッチングから理解へ
Nano Banana 2 は視覚的パターンを認識するだけではありません。以下について推論します:
- 光源:光はどこから来ているのか?色と強度は?
- オクルージョン:何が何を遮るのか?前にあるのは何、後ろにあるのは何?
- 遠近法:平行線はどう収束するのか?カメラ角度は?
- 反射:反射面に何が見えるべきか?
- スケール関係:物体 A は物体 B に対してどれくらいの大きさか?
これはポストプロセスではありません。マルチモーダルアーキテクチャに組み込まれたネイティブ空間推論です。
技術的な違い
従来の拡散:
[プロンプト:"窓がある部屋"] → ["部屋"と"窓"と統計的にマッチするピクセルを生成]
Nano Banana 2:
[プロンプト:"窓がある部屋"] →
[理解:窓は光源である] →
[計算:光が方向 X から入る] →
[生成:方向 X と一貫した影] →
[検証:遠近線が正しく収束]
生成しているだけではありません。シミュレートしています。
今すぐアクションを起こせる
影のテスト
所要時間:5 分。コスト:約 $0.15。
ステップ 1:任意の AI ツールでテストシーンを生成:
"車の隣に立つ人、夕暮れの照明、長い影"
ステップ 2:影を確認:
- すべて同じ方向を向いているか?
- 夕暮れ(長い)と正午(短い)に対応する長さか?
- 人の影が車の影と一致しているか?
ほとんどの 2024 年のツールでは、不整合が見つかります。
ステップ 3:Nano Banana 2 で同じプロンプトを生成。
ステップ 4:比較。影の一貫性の違いは即座に明らかです。
反射のテスト
ステップ 1:
"コーヒーショップのインテリア、テーブルで読書する人、
後ろに街の通りが見える窓"
ステップ 2:窓を確認:
- インテリアの照明を正しく反射しているか?
- 人の反射が実際のポーズと一致しているか?
- 外の街のシーンが反射と一致しているか?
Nano Banana 2 は、他のツールでは手動の合成が必要な反射の一貫性を維持します。
遠近法のテスト
ステップ 1:
"両側にドアがある長い廊下、下から見た低いカメラ角度"
ステップ 2:遠近法を確認:
- 天井、床、ドア枠が消失点に向かって収束しているか?
- ドアのサイズが距離とともに減少しているか?
- 天井の高さが一貫して見えるか?
これは Nano Banana 2 の空間推論が輝く場所です。遠近法は幾何学的に一貫しており、「おおよそ正しい」のではありません。
空間論理が可能にすること
建築ビジュアライゼーション
チェンの新ワークフロー:
T1: "モダンオフィスロビー、3 階建ての高さ、南側にガラスカーテンウォール"
T2: "ガラス壁から朝の光が入り、床の影を見せる"
T3: "中央にナチュラルウッド素材の受付デスクを追加"
T4: "デスクは朝の光の角度と一貫した影を落とすべき"
T5: "磨かれた床にガラス壁の反射を追加"
各要素は同じ光源を尊重します。影が一致します。反射が一致します。シーンは物理的に妥当です。
チェンの建築家の同僚:"これは使える。照明研究が実際に役立つ。"
プロダクト写真
EC チームはリアルなコンテキストでプロダクトが必要です:
"大理石のカウンタートップにワイヤレスイヤホン、
カフェ背景、左から自然な窓光"
信頼性に重要:
- コンタクトシャドウ:プロダクトが表面に接する場所
- 反射:大理石がイヤホンを反射すべき
- 背景ぼかし:示唆されたカメラ設定に対して光学적으로正しいボケ
- ライトラップ:窓に向かうエッジが光をキャッチ
Nano Banana 2 はこれらの物理的詳細をネイティブに生成します。他のツールでは手動での追加が必要か、微妙に偽物に見えます。
映画プレビジュアライゼーション
監督はショットを計画する必要があります。物理的な一貫性が重要です:
"オーバーザショルダーショット、壁の絵を見ている人、
単一の頭上光源からの劇的な照明"
プレビジュが有用であるためには:
- 肩が絵を部分的に遮るべき(オクルージョン)
- 絵は上から照らされるべきで、正面から照らされてはいけない
- 影は下に落ちるべき
- 角度は実際のカメラ位置を示唆すべき
Nano Banana 2 の空間推論は、監督が実際に計画に使用できる物理的に妥当な構図を生成します。
実践での空間論理
照明シナリオ
シナリオ 1:一貫した光源
"夕暮れ時のダイニングルーム、西向きの窓から差し込む黄金時の光"
確認すべき:
- すべての影が東に向かう(沈む太陽から離れて)
- 照らされた表面に暖かい色温度
- より涼しい影(環境空光)
- 長い影の長さ(低い太陽角度)
シナリオ 2:複数光源
"夜のキッチン、暖かいキャビネット下照明に加えて窓からの涼しい月明かり"
確認すべき:
- 2 つの異なる影の方向
- 光が重なる場所での色の混合
- 論理的な光源配置(上のキャビネット、外の月)
シナリオ 3:複雑な反射
"鏡のホール、中央に立つ人"
確認すべき:
- 反射が正しい角度で人を映す
- 無限鏡の反射が幾何学的ルールに従う
- "不可能な"反射がシーンにないものを映していない
遠近法シナリオ
シナリオ 1:一点遠近法
"中央に消失点がある列車プラットフォームを見下ろす"
すべての水平線がその中心点に収束すべきです。
シナリオ 2:二点遠近法
"通りレベルから見上げる建物の角"
水平線が左右の消失点に収束。垂直線は垂直のまま。
シナリオ 3:三点遠近法
"地面から真上を見上げる高層ビル"
垂直収束を追加。従来の AI には困難。Nano Banana 2 は一貫して処理します。
物体関係シナリオ
シナリオ 1:オクルージョン
"テーブルの上に積まれた 3 冊の本、真ん中の本が少し引き出されている"
真ん中の本は後ろの本を部分的に遮るべき。上の本は真ん中の一部を覆うべき。
シナリオ 2:スケール一貫性
"ラップトップコンピュータの隣に座る猫"
猫はラップトップに対して適切なサイズであるべき。「巨大な猫」または「小さなラップトップ」はなし。
シナリオ 3:接触物理学
"テーブルクロスの上のワイングラス"
グラスの底がテーブルクロスをわずかに凹ませるべき。接触が物理的に接地して見えるべきで、浮いているように見えてはいけない。
比較:空間論理の有無
テストケース:オフィスインテリア
プロンプト:「大きな窓から午後の太陽、デスクで働く人、隅に植物があるモダンオフィス」
| 側面 | 従来の AI | Nano Banana 2 |
|---|---|---|
| 影の方向 | 不整合(複数の光源が示唆される) | 統一(単一の一貫したソース) |
| 植物の影 | 窓の位置と一致しない | 実際の窓の配置と一致 |
| デスク表面の照明 | 均一に照らされている | グラデーション(窓に近い方が明るい) |
| 人の影 | ランダムな方向 | 他の影と一致 |
| 窓の反射 | ジェネリックな空 | 説明された時間帯と一致 |
テストケース:テーブルの上のプロダクト
プロンプト:「オーバーヘッド照明、カフェ背景の木製テーブルの上のスマートフォン」
| 側面 | 従来の AI | Nano Banana 2 |
|---|---|---|
| コンタクトシャドウ | 欠落または方向が間違っている | オーバーヘッド光と一貫している |
| テーブルの反射 | ジェネリックなぼかし | 電話の底を正しく映す |
| 背景ぼかし | ランダムなボケ | 示唆された絞りに対して光学적으로妥当 |
| 電話表面の光 | 均一 | オーバーヘッド光が当たる場所にハイライト |
空間論理が最も重要な時
物理的な一貫性が必須
| 使用シーン | 物理学が重要な理由 |
|---|---|
| 建築ビジュアライゼーション | クライアントが照明と空間を評価する |
| プロダクト写真 | 信頼性には物理的な妥当性が必要 |
| 映画プレビジュアライゼーション | 監督が実際のショットを計画する |
| 科学的イラスト | 正確さがポイントである |
| 教育コンテンツ | 間違った物理学は間違った概念を教える |
物理的な一貫性があれば良い
| 使用シーン | 許容可能なトレードオフ |
|---|---|
| ソーシャルメディアコンテンツ | 視聴者は素早くスクロールする |
| コンセプトアート | アーティスティックライセンスが一部のエラーを許容 |
| 抽象的なイメージ | 物理学は適用されない場合がある |
| 装飾的なイメージ | 美しさが正確性より優先 |
物理的な一貫性は不要
| 使用シーン | 物理学が重要でない理由 |
|---|---|
| シュルレアリスムアート | 不可能さがポイントである |
| 夢/ファンタジー | 現実のルールは適用されない |
| パターン/テクスチャ生成 | 一貫性のあるシーンがない |
現在の空間論理の制限
まだ学習中:複雑な光学
- カースティクス:ガラス/水を通る光の集束(光の池)
- サブサーフェススキャタリング:光が材料内に入り跳ね返る(肌、ワックス)
- ボリューメトリクス:霧/ほこりを通る光ビーム
Nano Banana 2 は基本を正しく理解しています。高度な光学現象はまだ進化中です。
まだ学習中:ダイナミクス
静的シーンが最も機能します。モーションブラー、複雑な物理学を持つアクションポーズ(スポーツ、衝突)はより困難です。
まだ学習中:スケールの極端
マクロ写真(昆虫の目)と天体写真(銀河スケール)は、トレーニングデータの一貫性の限界を押し上げます。
未来:物理学を認識した生成
これが向かう先
2024 年:"見た目が正しい画像を生成"
2026 年(Nano Banana 2):"物理的に一貫した画像を生成"
2027-2028 年:"正確な物理学シミュレーションを持つシーンを生成"(光輸送、材料特性、ダイナミクス)
軌跡:外観からシミュレーションへ。
示唆
AI 空間推論が改善するにつれて:
- 建築:AI 生成レンダリングが照明研究に信頼できるものになる
- 映画:プレビジュが制作対応になる
- EC:AI プロダクト写真がスタジオ写真と区別がつかなくなる
- 教育:AI イラストが正確性を信頼できる
"AI 生成"と"物理的に正確"の間の線がぼやけます。
シリーズナビゲーション
これは Nano Banana 2 マスタークラスシリーズの記事 3です。
- 前:E02:テキストから画像へ、そして会話から画像へ
- 次:E04:プレミアム価格から画像あたり数セントへ
- シリーズ概要:マスタークラスインデックス
物理学は信頼性のギャップでした。それは閉じつつあります。
