Retour au blog
nano-banana
logique-spatiale
physique
eclairage
composition
visualisation-architecturale

Du Chaos à la Physique : La Logique Spatiale dans les Images IA

Pourquoi la plupart des scènes générées par IA semblent 'décalées' — et comment le raisonnement spatial de Nano Banana 2 arrive enfin à obtenir l'éclairage, la perspective et les relations d'objets correctement.

Publié le 2026-02-28

Du Chaos à la Physique : La Logique Spatiale dans les Images IA

La Vallée de l'Étrange de l'Espace

Regardez suffisamment d'images générées par IA, et vous développez un sixième sens. Quelque chose semble faux avant que vous puissiez l'articuler.

L'ombre tombe à gauche, mais la fenêtre est à droite. Une personne se tient sur un escalier qui ne mène nulle part. Les reflets dans un miroir montrent une pièce entièrement différente. Les objets flottent légèrement au-dessus des tables. Des mains tiennent des tasses à des angles impossibles.

Les modèles d'images IA sont des maîtres de la texture et du style. Mais historiquement, ils ont été terribles en physique.

Rencontrez Chen. C'est un artiste de visualisation architecturale à Shanghai. En 2024, il a expérimenté l'IA pour les rendus intérieurs. Son prompt : « Salon moderne, fenêtres du sol au plafond, lumière du soleil entrant, mobilier minimaliste. »

Le résultat semblait magnifique — à première vue. Puis son collègue architecte a fait remarquer :

  • Les ombres suggéraient que le soleil était sous l'horizon
  • Le reflet dans la table en verre montrait une pièce complètement différente
  • Les lignes de perspective du sol et du plafond ne convergeaient pas correctement
  • Le canapé projetait une ombre dans deux directions différentes

« Ça ressemble à un rêve, » a dit son collègue. « Les rêves ne suivent pas la physique. »

Chen a passé 3 heures dans Photoshop à corriger les erreurs. Aurais aussi bien pu le faire en traditionnel depuis le début.

C'est le sale secret de la génération d'images IA de l'ère 2024 : beauté de surface, absurdité physique.


Pourquoi la Physique est Difficile pour l'IA

L'Aveugle Spot du Modèle de Diffusion

Les modèles de diffusion (DALL-E, Midjourney, Stable Diffusion) apprennent des motifs, pas la physique. Ils sont entraînés sur des milliards d'images et apprennent :

  • « Les pièces ont souvent des fenêtres »
  • « Les fenêtres ont souvent de la lumière qui entre »
  • « La lumière crée des ombres »

Mais ils n'apprennent pas :

  • « La lumière voyage en lignes droites »
  • « Les ombres pointent à l'opposé des sources de lumière »
  • « Les reflets suivent la loi de la réflexion »

Alors ils génèrent des « textures d'ombre » qui semblent sombres mais ne correspondent pas à de vraies sources de lumière. Ils génèrent des « motifs de réflexion » qui semblent réfléchissants mais ne reflètent pas la scène réelle.

Le Problème de l'Erreur en Cascade

Une petite erreur de physique en entraîne une autre. Si la direction de la lumière est fausse, les ombres sont fausses. Si les ombres sont fausses, le placement des objets semble aléatoire. Si les objets semblent aléatoires, toute la scène semble fausse.

Les utilisateurs développent une reconnaissance de motifs inconsciente : « image IA » = « belle mais légèrement fausse. »

Le Coût Humain

Pour les cas d'usage professionnels — architecture, visualisation de produits, prévisualisation de films — ces erreurs ne sont pas des bizarreries. Ce sont des briseurs de contrats.

  • Client d'architecture : « Pourquoi la lumière du soleil frappe-t-elle le mur nord ? »
  • Photographe de produits : « Le reflet montre un produit différent. On ne peut pas utiliser ça. »
  • Directeur de film : « La perspective est fausse. Je ne peux pas planifier le plan. »

Chaque situation nécessite une correction manuelle, annulant souvent les gains de temps de la génération IA.


Nano Banana 2 : Moteur de Raisonnement Spatial

De la Reconnaissance de Motifs à la Compréhension

Nano Banana 2 ne reconnaît pas seulement les motifs visuels. Il raisonne sur :

  • Sources de lumière : D'où vient la lumière ? Quelle est sa couleur et son intensité ?
  • Occlusion : Qu'est-ce qui bloque quoi ? Qu'est-ce qui est devant, qu'est-ce qui est derrière ?
  • Perspective : Comment les lignes parallèles convergent-elles ? Quel est l'angle de la caméra ?
  • Reflets : Que devrait-on voir dans les surfaces réfléchissantes ?
  • Relations d'échelle : Quelle est la taille de l'objet A par rapport à l'objet B ?

Ce n'est pas du post-traitement. C'est du raisonnement spatial natif intégré dans l'architecture multimodale.

La Différence Technique

Diffusion traditionnelle :

[Prompt : "pièce avec fenêtre"] → [Générer des pixels qui correspondent statistiquement à "pièce" et "fenêtre"]

Nano Banana 2 :

[Prompt : "pièce avec fenêtre"] → 
[Comprendre : fenêtre est source de lumière] →
[Calculer : lumière entre depuis la direction X] →
[Générer : ombres cohérentes avec la direction X] →
[Vérifier : lignes de perspective convergent correctement]

Ce n'est pas juste de la génération. C'est de la simulation.


Vous Pouvez Agir Maintenant

Le Test des Ombres

Temps requis : 5 minutes. Coût : ~$0,15.

Étape 1 : Générez une scène de test dans n'importe quel outil IA :

« Une personne debout à côté d'une voiture, éclairage coucher de soleil, longues ombres »

Étape 2 : Vérifiez les ombres :

  • Pointent-elles toutes dans la même direction ?
  • Leurs longueurs correspondent-elles au coucher de soleil (longues) vs midi (courtes) ?
  • L'ombre de la personne s'aligne-t-elle avec l'ombre de la voiture ?

Dans la plupart des outils de l'ère 2024, vous trouverez des incohérences.

Étape 3 : Générez le même prompt dans Nano Banana 2.

Étape 4 : Comparez. La différence dans la cohérence des ombres est immédiate et évidente.

Le Test des Reflets

Étape 1 :

« Intérieur de café, personne lisant à une table, fenêtre derrière eux montrant une rue de ville »

Étape 2 : Vérifiez la fenêtre :

  • Les lumières intérieures se reflètent-elles correctement ?
  • Le reflet de la personne correspond-il à leur pose réelle ?
  • La scène de rue extérieure s'aligne-t-elle avec le reflet ?

Nano Banana 2 maintient une cohérence des reflets qui nécessiterait un compositing manuel dans d'autres outils.

Le Test de Perspective

Étape 1 :

« Un long couloir avec des portes des deux côtés, angle de caméra bas regardant vers le bas »

Étape 2 : Vérifiez la perspective :

  • Le plafond, le sol et les cadres de porte convergent-ils vers un point de fuite ?
  • Les tailles des portes diminuent-elles avec la distance ?
  • La hauteur du plafond semble-t-elle cohérente ?

C'est là que le raisonnement spatial de Nano Banana 2 brille. La perspective est géométriquement cohérente, pas « approximativement correcte. »


Ce Que la Logique Spatiale Permet

Visualisation Architecturale

Le nouveau flux de travail de Chen :

T1 : « Hall de bureau moderne, hauteur de 3 étages, mur-rideau de verre côté sud »
T2 : « Lumière du matin entrant depuis le mur de verre, montrez les ombres sur le sol »
T3 : « Ajoutez une réception au centre, matériau bois naturel »
T4 : « Le bureau devrait projeter une ombre cohérente avec l'angle de la lumière du matin »
T5 : « Ajoutez le reflet du mur de verre dans le sol poli »

Chaque élément respecte la même source de lumière. Les ombres s'alignent. Les reflets correspondent. La scène est physiquement plausible.

Collègue architecte de Chen : « Ça, je peux travailler avec. L'étude d'éclairage est réellement utile. »

Photographie de Produits

Les équipes e-commerce ont besoin de produits dans des contextes réalistes :

« Écouteurs sans fil sur un comptoir en marbre, arrière-plan de café,
lumière naturelle de fenêtre depuis la gauche »

Critique pour la crédibilité :

  • Ombres de contact : Où le produit touche la surface
  • Reflet : Le marbre devrait refléter les écouteurs
  • Flou d'arrière-plan : Le bokeh devrait être optiquement correct pour les paramètres de caméra implicites
  • Enveloppement de lumière : Les bords face à la fenêtre devraient capter la lumière

Nano Banana 2 génère ces détails physiques nativement. D'autres outils nécessitent un ajout manuel ou semblent subtilement faux.

Prévisualisation de Films

Les directeurs ont besoin de planifier des plans. La cohérence physique compte :

« Plan par-dessus l'épaule, personne regardant un tableau au mur,
éclairage dramatique depuis une seule source au-dessus »

Pour que la prévis soit utile :

  • L'épaule devrait partiellement obscurcir le tableau (occlusion)
  • Le tableau devrait être éclairé d'en haut, pas frontalement
  • Les ombres devraient tomber vers le bas
  • L'angle devrait suggérer une vraie position de caméra

Le raisonnement spatial de Nano Banana 2 génère des compositions physiquement plausibles que les directeurs peuvent réellement utiliser pour la planification.


La Logique Spatiale en Pratique

Scénarios d'Éclairage

Scénario 1 : Source de Lumière Cohérente

« Une salle à manger au coucher du soleil, lumière dorée de l'heure dorée entrant par les fenêtres ouest »

Quoi vérifier :

  • Toutes les ombres tombent vers l'est (à l'opposé du soleil couchant)
  • Température de couleur chaude sur les surfaces éclairées
  • Ombres plus froides (lumière ambiante du ciel)
  • Longueurs d'ombre longues (angle bas du soleil)

Scénario 2 : Sources de Lumière Multiples

« Une cuisine la nuit, éclairage chaud sous les placards plus lumière froide de lune par la fenêtre »

Quoi vérifier :

  • Deux directions d'ombre distinctes
  • Mélange des couleurs là où les lumières se chevauchent
  • Placement logique des sources de lumière (placards au-dessus, lune à l'extérieur)

Scénario 3 : Reflets Complexes

« Un hall de miroirs, personne debout au centre »

Quoi vérifier :

  • Les reflets montrent la personne sous les bons angles
  • Les reflets infinis de miroir suivent les règles géométriques
  • Pas de reflets « impossibles » montrant des choses pas dans la scène

Scénarios de Perspective

Scénario 1 : Perspective à Un Point

« Regarder vers le bas un quai de gare, point de fuite au centre »

Toutes les lignes horizontales devraient converger vers ce point central.

Scénario 2 : Perspective à Deux Points

« Coin d'un bâtiment vu depuis la rue, regardant vers le haut »

Les lignes horizontales convergent vers les points de fuite gauche et droit. Les verticales restent verticales.

Scénario 3 : Perspective à Trois Points

« Gratte-ciel vu depuis le sol regardant droit vers le haut »

Ajoute la convergence verticale. Difficile pour l'IA traditionnelle. Nano Banana 2 le gère de manière cohérente.

Scénarios de Relations d'Objets

Scénario 1 : Occlusion

« Trois livres empilés sur une table, le livre du milieu légèrement tiré vers l'extérieur »

Le livre du milieu devrait partiellement obscurcir le livre derrière. Le livre du dessus devrait couvrir une partie du milieu.

Scénario 2 : Cohérence d'Échelle

« Un chat assis à côté d'un ordinateur portable »

Le chat devrait être de taille appropriée par rapport à l'ordinateur portable. Pas de « chat géant » ou « ordinateur portable minuscule. »

Scénario 3 : Physique de Contact

« Un verre de vin sur une nappe »

La base du verre devrait légèrement enfoncer la nappe. Le contact devrait sembler physiquement ancré, pas flottant.


Comparaison : Avec et Sans Logique Spatiale

Cas de Test : Bureau Intérieur

Prompt : « Bureau moderne, soleil de l'après-midi par les grandes fenêtres, personne travaillant à un bureau, plantes dans le coin »

AspectIA TraditionnelleNano Banana 2
Direction des ombresIncohérente (multiples sources de lumière implicites)Uniforme (source unique cohérente)
Ombres des plantesNe correspondent pas à la position de la fenêtreS'alignent avec le placement réel de la fenêtre
Éclairage de la surface du bureauUniformément éclairéDégradé (plus lumineux près de la fenêtre)
Ombre de la personneDirection aléatoireCorrespond aux autres ombres
Reflet de la fenêtreCiel génériqueCorrespond à l'heure de la journée décrite

Cas de Test : Produit sur Table

Prompt : « Smartphone sur table en bois, éclairage au-dessus, arrière-plan de café »

AspectIA TraditionnelleNano Banana 2
Ombre de contactManquante ou mauvaise directionPrésente, cohérente avec la lumière au-dessus
Reflet de la tableFlou génériqueMontre correctement le bas du téléphone
Flou d'arrière-planBokeh aléatoireOptiquement plausible pour l'ouverture implicite
Lumière sur la surface du téléphoneUniformeReflet là où la lumière au-dessus frappe

Quand la Logique Spatiale Compte le Plus

Doit Avoir une Cohérence Physique

Cas d'UsagePourquoi la Physique Compte
Visualisation architecturaleLes clients évaluent l'éclairage et l'espace
Photographie de produitsLa crédibilité nécessite la plausibilité physique
Prévisualisation de filmsLes directeurs planifient de vrais plans basés sur la prévis
Illustration scientifiqueLa précision est le but
Contenu éducatifUne mauvaise physique enseigne de mauvais concepts

Bon d'Avoir une Cohérence Physique

Cas d'UsageCompromis Acceptables
Contenu de réseaux sociauxLes spectateurs défilent rapidement
Concept artLa licence artistique excuse certaines erreurs
Imagerie abstraiteLa physique peut ne pas s'appliquer
Imagerie décorativeBeauté plutôt que précision

N'a Pas Besoin de Cohérence Physique

Cas d'UsagePourquoi la Physique n'Importe Pas
Art surréalisteL'impossible est le but
Rêves/fantaisieLes règles de réalité ne s'appliquent pas
Génération de motifs/texturesPas de scène à rendre cohérente

Limitations de la Logique Spatiale Actuelle

Toujours en Apprentissage : Optique Complexe

  • Caustiques : Lumière se concentrant à travers verre/eau (bassins de lumière)
  • Diffusion sous-cutanée : Lumière entrant et rebondissant dans les matériaux (peau, cire)
  • Volumétriques : Faisceaux de lumière à travers brouillard/poussière

Nano Banana 2 obtient les bases correctement. Les phénomènes optiques avancés évoluent encore.

Toujours en Apprentissage : Dynamiques

Les scènes statiques fonctionnent mieux. Le flou de mouvement, les poses d'action avec physique complexe (sports, collisions) sont plus difficiles.

Toujours en Apprentissage : Échelles Extrêmes

La macrophotographie (yeux d'insecte) et l'astrophotographie (échelles galactiques) poussent les limites de la cohérence des données d'entraînement.


L'Avenir : Génération Consciente de la Physique

Où Cela Va

2024 : « Générer une image qui semble correcte »

2026 (Nano Banana 2) : « Générer une image qui est physiquement cohérente »

2027-2028 : « Générer une scène avec simulation physique précise » (transport de lumière, propriétés des matériaux, dynamiques)

La trajectoire : de l'apparence à la simulation.

Implications

À mesure que le raisonnement spatial IA s'améliore :

  • Architecture : Les rendus IA deviennent fiables pour les études d'éclairage
  • Film : La prévis devient prête pour la production
  • E-commerce : Les photos de produits IA deviennent indiscernables de la photographie en studio
  • Éducation : Les illustrations IA peuvent être fiables pour la précision

La ligne entre « généré par IA » et « physiquement précis » s'estompe.


Navigation dans la Série

Ceci est l'Article 3 de la Série Masterclass Nano Banana 2.


La physique était l'écart de crédibilité. Il se referme.