nano-banana

conversation

edition

flux-de-travail

multimodal

conception-iterative

Du Texte-vers-Image à la Conversation-vers-Image

Arrêtez d'écrire des prompts. Commencez à avoir des conversations. Comment le dialogue multimodal de Nano Banana 2 transforme la génération d'images d'une machine à sous en un processus de conception collaboratif.

Publié le 2026-02-27

Du Texte-vers-Image à la Conversation-vers-Image

Le Piège de l'Ingénierie de Prompts

En 2024, la génération d'images IA était une machine à sous.

Vous tiriez le levier — écrivez un prompt, appuyez sur générer — et espériez le jackpot. La plupart du temps, vous obteniez des citrons. Alors vous tireriez à nouveau. Et encore. Et encore. Chaque génération coûtait de l'argent. Chaque échec coûtait du temps.

Rencontrez David. Il est directeur marketing dans une startup SaaS. En octobre 2024, il avait besoin d'une image principale pour une page d'atterrissage : « Un développeur travaillant à un bureau debout, bureau moderne, éclairage naturel, expression concentrée, esthétique minimaliste. »

Son flux de travail :

Génération 1 : « Le développeur a l'air ennuyé. Peut-on le rendre plus engagé ? » Génération 2 : « Meilleure expression, mais l'éclairage est trop dur. » Génération 3 : « Bon éclairage, mais la couleur du bureau est fausse. » Génération 4 : « Couleur du bureau corrigée, mais maintenant la pose est maladroite. » Génération 5 : « La pose est meilleure, mais l'arrière-plan est distrayant. » Génération 6-15 : Diverses tentatives pour corriger divers problèmes.

Coût total : $8,50. Temps total : 47 minutes. Résultat : « Ça va. Utilisons simplement celle-ci. »

C'est le coût caché de la génération d'images IA traditionnelle. Pas les appels API. L'itération. La mort par mille micro-ajustements.

Et le pire ? Chaque génération était indépendante. Le modèle ne se « souvenait » pas de ce que David aimait dans la Génération 2 lorsqu'il travaillait sur la Génération 3. C'était le Jour de la Marmotte, à chaque fois.

La Solution Traditionnelle (Et Pourquoi Elle est Cassée)

Solution 1 : Des Prompts Plus Longs et Plus Détaillés

Le conseil que tout le monde donnait : « Écrivez de meilleurs prompts. »

Alors David a appris l'ingénierie de prompts :

« 8k, très détaillé, photographie professionnelle »
« Style Unsplash, pris avec Canon R5, objectif 50mm »
« éclairage doux diffus depuis la fenêtre à 14h, ISO 100, f/2.8 »
« intérieur de bureau scandinave minimaliste avec chaise Eames »

Ses prompts atteignaient 200+ mots. Les résultats ? Marginalement meilleurs. Mais maintenant chaque prompt prenait 10 minutes à écrire. Et quand le client disait « En fait, essayons un bureau assis au lieu de debout », il réécrivait tout le roman.

Effort augmenté 10x. Résultats améliorés de 20%.

Solution 2 : Image-vers-Image

La plupart des outils ont ajouté des fonctionnalités img2img. Téléchargez votre image presque correcte, décrivez les changements, générez des variations.

Mieux, mais maladroit :

Télécharger l'image
Télécharger dans l'interface img2img
Écrire un nouveau prompt décrivant les changements
Ajuster le curseur de force (0,5 ? 0,7 ? 0,9 ?)
Générer 3-4 variations
Aucune ne semble correcte
Réajuster la force
Répéter

Et img2img avait un défaut fatal : c'était destructif. Chaque passe dégradait la qualité. Les détails devenaient flous. Des artefacts apparaissaient. À la génération 5, l'image ressemblait à une photocopie d'une photocopie.

Solution 3 : Édition en Couches + Inpainting

Flux de travail style Photoshop. Masquez la zone que vous voulez changer. Décrivez le changement. Générez.

Puissant, mais :

Nécessitait des compétences techniques (masquage, couches, fusion)
Long (5 minutes de masquage par édition)
Style incohérent (les nouveaux éléments ne correspondaient pas toujours aux anciens)

David avait besoin de l'aide d'un designer pour les éditions complexes. La « démocratisation » de l'IA ne semblait pas très démocratique.

Nano Banana 2 : Le Modèle Conversationnel

Janvier 2026. Nano Banana 2 change la donne.

Pas avec de meilleurs prompts. Pas avec un meilleur img2img. Avec la conversation.

Le nouveau flux de travail de David pour la même image de page d'atterrissage :

Tour 1 :

David : « Générer un développeur travaillant à un bureau, bureau moderne »
Nano Banana 2 : [génère l'image]

Tour 2 :

David : « Faites-le debout, pas assis, et ajoutez un deuxième moniteur »
Nano Banana 2 : [met à jour l'image, même personne, maintenant debout, double écrans]

Tour 3 :

David : « L'éclairage semble trop artificiel. Faites-le lumière naturelle de fenêtre, fin d'après-midi »
Nano Banana 2 : [met à jour l'image, éclairage doré chaud]

Tour 4 :

David : « Éclairage parfait. Peut-on ajouter une plante dans le coin ? Un figuier de fiddle leaf grand »
Nano Banana 2 : [ajoute la plante, maintient l'éclairage et la composition]

Tour 5 :

David : « La plante est trop proéminente. Rendez-la plus petite et déplacez-la derrière le bureau »
Nano Banana 2 : [ajuste la taille et la position de la plante]

Coût total : $0,45 (5 tours). Temps total : 6 minutes. Résultat : « C'est exactement ce que je voulais. »

La différence est un changement de paradigme. David n'écrit pas de prompts. Il a une conversation. Le modèle se souvient du contexte. Chaque tour s'appuie sur le précédent. Pas de dégradation de qualité. Pas de recommencer à zéro.

Comment Fonctionne la Conversation-vers-Image

L'Architecture Technique

Modèle de diffusion traditionnel :

[Prompt A] → [Générer] → [Image A]
[Prompt B] → [Générer] → [Image B] (sans rapport avec A)

Conversation multimodale Nano Banana 2 :

[Prompt A] → [Générer] → [Image A + Contexte]
                                     ↓
[Prompt B + Image A + Contexte] → [Générer] → [Image B]
                                     ↓
[Prompt C + Image B + Contexte] → [Générer] → [Image C]

La clé : contexte multimodal persistant. Nano Banana 2 maintient une compréhension continue de :

L'état visuel (image actuelle)
L'historique de la conversation (ce qui a été demandé/changé)
L'intention de l'utilisateur (ce qu'il essaie d'atteindre)

Ce n'est pas une régénération from scratch. C'est de l'édition avec compréhension.

Ce Qui le Rend « Natif »

D'autres outils ont boulonné la conversation sur des modèles existants :

GPT-4V décrivant les images → DALL-E en générant de nouvelles
Multiples appels API, multiples modèles, perte de contexte à chaque transfert

Nano Banana 2 est nativement multimodal. Un modèle. Une fenêtre de contexte. Vraie compréhension.

Le résultat :

Cohérence : Les changements ont un sens visuel, pas des mutations aléatoires
Mémoire : « Rendre la plante plus petite » se souvient quelle plante, où elle était
Préservation de l'intention : « Gardez l'éclairage mais changez le bureau » maintient ce qui compte

Profondeur de Conversation

Combien de tours pouvez-vous faire ? La documentation de Google suggère un contexte efficace pour 10-20 tours d'échanges. En pratique :

Nombre de Tours	Efficacité	Idéal Pour
1-3	100%	Changements uniques rapides
4-7	95%	Ajustements multi-éléments
8-12	90%	Construction de scènes complexes
13-20	80%	Affinage étendu
20+	Dégradation	Commencer une nouvelle session

Conseil pro : Pour les scènes complexes, faites le travail fondamental en 5-7 tours, puis sauvegardez les images de référence et commencez une nouvelle conversation pour l'affinage.

Vous Pouvez Agir Maintenant

Votre Première Conversation

Temps requis : 10 minutes. Coût : ~$0,30.

Étape 1 : Ouvrez Google AI Studio. Sélectionnez Gemini 3.1 Flash Image.

Étape 2 : Commencez simplement :

« Une tasse de café sur une table en bois, lumière du matin »

Générez.

Étape 3 : Faites un changement :

« Changez la tasse en céramique bleue »

Générez. Même table. Même lumière. Tasse différente.

Étape 4 : Ajoutez un élément :

« Ajoutez un carnet et un stylo à côté de la tasse »

Générez. Tasse bleue, carnet, stylo. Composition cohérente.

Étape 5 : Ajustez la composition :

« Déplacez le carnet à gauche et ouvrez-le »

Générez. Disposition ajustée. Tout le reste préservé.

Étape 6 : Changez l'ambiance :

« Faites-en le soir avec une lumière de lampe chaude au lieu du matin »

Générez. Mêmes objets. Nouvel éclairage. Ombres cohérentes.

Vous venez d'avoir une conversation de 6 tours. Temps total : 4 minutes. Essayez de faire ça avec img2img traditionnel.

Modèles de Conversation Qui Fonctionnent

Modèle 1 : L'Approche Sculpture

Commencez large. Affinez étroit.

T1 : « Une scène de rue de ville »
T2 : « Faites-en une nuit pluvieuse à Tokyo »
T3 : « Ajoutez des enseignes néon en japonais »
T4 : « Incluez une personne avec un parapluie au premier plan »
T5 : « Faites le parapluie rouge »
T6 : « Ajoutez des reflets sur le pavé humide »
T7 : « Les reflets devraient montrer les enseignes néon »

Comme la sculpture : forme brute → détails moyens → détails fins.

Modèle 2 : L'Approche Test A/B

Explorez les variations sans perdre du terrain.

T1 : « Un salon moderne, style minimaliste »
[Bonne base]

T2 : « Changez le canapé en bleu »
[Voir option A]

T3 : « En fait, revenez à l'original et faites le canapé vert à la place »
[Option B - attendez, se souvient-il de « l'original » ?]

Limitation : Nano Banana 2 n'a pas de « annuler » au sens traditionnel. Il se souvient de la conversation, mais ne peut pas revenir à des états précédents arbitraires.

Solution de contournement : Sauvegardez les images de référence aux jalons clés. Si T3 va mal, commencez une nouvelle conversation avec l'image T1 comme référence.

Modèle 3 : La Boucle de Correction

Aller-retour naturel comme travailler avec un designer.

T1 : « Une personne randonnant en montagne »
[Image générée]

T2 : « La personne devrait porter des chaussures de randonnée, pas des baskets »
[Corrigé]

T3 : « Mieux, mais les chaussures semblent trop neuves. Faites-les usées et boueuses »
[Corrigé]

T4 : « Superbes chaussures. Maintenant le sac à dos semble trop petit. Faites-en un grand sac de randonnée »
[Corrigé]

T5 : « Parfait. Une dernière chose — ajoutez des bâtons de randonnée »
[Fait]

Chaque correction est comprise dans le contexte. Pas besoin de réexpliquer. Pas de recommencer à zéro.

Modèle 4 : L'Évolution de Scène

Construisez des scènes complexes progressivement.

T1 : « Une salle de classe vide »
T2 : « Ajoutez 6 bureaux disposés en cercle »
T3 : « Mettez un bureau d'enseignant à l'avant avec un ordinateur portable »
T4 : « Ajoutez un tableau blanc avec des équations mathématiques »
T5 : « Faites-en un après-midi ensoleillé avec la lumière entrant par les fenêtres »
T6 : « Ajoutez des ombres des cadres de fenêtre sur le sol »

Approche traditionnelle : Écrivez un prompt de 200 mots décrivant tout ça. Espérez que le modèle l'analyse correctement.

Approche conversation : Construisez en direct, vérifiez chaque élément, ajustez si nécessaire.

Ce Qui Fonctionne (Et Ce Qui Ne Fonctionne Pas)

Conversations Qui Coulent

Ajustements spatiaux :

« Déplacez la voiture à gauche »
« Rendez le bâtiment plus grand »
« Ajoutez de l'espace entre les deux personnes »

Changements d'attributs :

« Changez la couleur en bleu »
« Faites-en la nuit au lieu du jour »
« Ajoutez du brouillard/brume »

Ajout/suppression d'éléments :

« Ajoutez un oiseau dans le ciel »
« Retirez le logo du t-shirt »
« Mettez une tasse de café dans leur main »

Transferts de style (dans une certaine mesure) :

« Faites-le ressembler à une aquarelle »
« Appliquez un look de film vintage »
« Rendez-le plus photoréaliste »

Conversations Qui Peinent

Changements de perspective extrêmes :

« Faites pivoter la scène de 90 degrés »
« Montrez ceci d'une vue à vol d'oiseau »
« Faites-en un gros plan du visage seul »

Ceux-ci fonctionnent mieux comme nouvelles générations avec références.

Ajout de multiples éléments complexes à la fois :

« Ajoutez une foule, changez l'éclairage en coucher de soleil, faites-en qu'il pleuve, et ajoutez un enseigne néon »

Décomposez en étapes :

« Ajoutez une foule » → vérifiez → « Changez l'éclairage en coucher de soleil » → vérifiez → etc.

Annuler des changements précédents :

« En fait, revenez à l'aspect d'il y a 3 tours »

Nano Banana 2 ne maintient pas un arbre d'historique. Utilisez des images de référence aux jalons.

Instructions contradictoires :

« Rendez-le plus clair mais aussi plus sombre »
« Ajoutez plus de gens mais gardez-le minimaliste »

Le modèle fait de son mieux, mais des directions contradictoires produisent des résultats confus.

Flux de Travail en Production

Images Principales de Pages d'Atterrissage

Traditionnel :

Écrivez 50 variantes de prompts
Générez 100 images
Filtrez à 10 options
Le client en choisit 1
Itérez 5 fois de plus
Temps : 3-4 heures

Approche Conversationnelle :

Commencez avec le concept
Ayez une conversation de 10 tours pour affiner
Le client observe/conseille en temps réel
Verrouillez la version finale
Temps : 20-30 minutes

Campagnes de Réseaux Sociaux

Besoin de 20 variations de la même scène pour des tests A/B ?

Tours 1-5 : Construisez la scène de base via conversation Tour 6 : « Sauvegardez ceci comme version A » Tour 7 : « Changez la couleur du texte du titre en rouge » → Version B Tour 8 : « Revenez à la version A, mais changez l'image d'arrière-plan » → Version C

En fait, comme il n'y a pas de « sauvegarde d'état », meilleure approche :

Complétez la scène de base (5 tours)
Sauvegardez l'image de référence
Commencez 3 nouvelles conversations depuis cette référence :
- Convo B : « Changez la couleur du titre en rouge »
- Convo C : « Changez l'arrière-plan en paysage urbain »
- Convo D : « Ajoutez une citation de témoignage »

Itération de Storyboard

Un directeur de film a besoin d'itérer sur la composition de scène :

T1 : « Un détective assis dans un bureau sombre, style noir »
T2 : « Ajoutez des ombres de stores vénitiens depuis la fenêtre »
T3 : « Mettez un verre de whisky sur le bureau »
T4 : « Le verre devrait avoir de la glace et être à moitié plein »
T5 : « Ajoutez un pistolet à côté du verre »
T6 : « Faites refléter le pistolet la lumière de la fenêtre »
T7 : « Le détective devrait regarder le pistolet, pas la caméra »
T8 : « Ajoutez de la pluie à l'extérieur de la fenêtre »

Le directeur voit la composition évoluer. Prend des décisions en temps réel. Pas de loterie de génération « je saurai que c'est bien quand je le verrai ».

L'Économique de la Conversation

Comparaison des Coûts

Scénario : Affiner une image marketing à travers 10 itérations.

Méthode	Itérations	Coût par	Coût Total	Temps
Génération Traditionnelle	10 séparées	$0,05	$0,50	30 min
img2img	10 passes	$0,05	$0,50	25 min
Nano Banana 2	Convo 10 tours	$0,03	$0,30	10 min

Les économies ne sont pas seulement financières. Le temps et la bande passante mentale comptent plus.

Le Coût Caché : La Fatigue de Décision

Génération d'images IA traditionnelle :

Générez 20 options
Comparez 20 options
Choisissez-en 1
Doutez du choix
Générez 20 de plus
Ne soyez jamais satisfait

Approche conversationnelle :

Construisez incrémentalement
Validez chaque décision
Arrivez à la satisfaction organiquement
Sachez pourquoi l'image finale fonctionne

Limitations

Pas de Vrai Annuler

Une fois que vous avez emprunté un chemin, vous ne pouvez pas revenir en arrière arbitrairement. Solution de contournement : sauvegardez des images de référence aux points de décision clés.

Limites de la Fenêtre de Contexte

Après ~20 tours, le modèle peut commencer à oublier les détails de la conversation précoce. Pour les projets complexes, décomposez en plusieurs conversations avec des images de référence.

Focus Image Unique

Chaque conversation maintient une image active. Ne peut pas travailler sur plusieurs compositions simultanément. Solution de contournement : plusieurs onglets navigateur/conversations.

Nuance Linguistique

« Rendez-le plus dynamique » vs « Rendez-le plus énergique » — les différences de prompts subtiles comptent toujours. Le modèle comprend bien le langage naturel, mais pas parfaitement.

La Plus Grande Image

La conversation-vers-image n'est pas juste une fonctionnalité. C'est un changement de paradigme.

Les outils d'images IA traditionnels traitaient les utilisateurs comme des opérateurs de machine : écrivez des instructions précises, obtenez une sortie, répétez.

Nano Banana 2 traite les utilisateurs comme des collaborateurs : discutez, itérez, affinez ensemble.

Cela reflète comment les designers humains travaillent réellement :

« Montrez-moi quelque chose »
« Hmm, plus chaud »
« Oui, comme ça, mais plus grand »
« Parfait, ajoutez juste... »

Les meilleurs outils créatifs n'exécutent pas seulement des commandes. Ils s'engagent dans le dialogue.

Navigation dans la Série

Ceci est l'Article 2 de la Série Masterclass Nano Banana 2.

Précédent : E01 : De LoRA à l'Apprentissage Zéro : La Révolution de la Cohérence des Personnages
Suivant : E03 : De la Devinette de Prompts à la Logique Spatiale
Vue d'Ensemble de la Série : Index Masterclass

La révolution de la conversation est là. Arrêtez de tirer le levier. Commencez à parler.