Du Texte-vers-Image à la Conversation-vers-Image
Arrêtez d'écrire des prompts. Commencez à avoir des conversations. Comment le dialogue multimodal de Nano Banana 2 transforme la génération d'images d'une machine à sous en un processus de conception collaboratif.
Publié le 2026-02-27
Du Texte-vers-Image à la Conversation-vers-Image
Le Piège de l'Ingénierie de Prompts
En 2024, la génération d'images IA était une machine à sous.
Vous tiriez le levier — écrivez un prompt, appuyez sur générer — et espériez le jackpot. La plupart du temps, vous obteniez des citrons. Alors vous tireriez à nouveau. Et encore. Et encore. Chaque génération coûtait de l'argent. Chaque échec coûtait du temps.
Rencontrez David. Il est directeur marketing dans une startup SaaS. En octobre 2024, il avait besoin d'une image principale pour une page d'atterrissage : « Un développeur travaillant à un bureau debout, bureau moderne, éclairage naturel, expression concentrée, esthétique minimaliste. »
Son flux de travail :
Génération 1 : « Le développeur a l'air ennuyé. Peut-on le rendre plus engagé ? » Génération 2 : « Meilleure expression, mais l'éclairage est trop dur. » Génération 3 : « Bon éclairage, mais la couleur du bureau est fausse. » Génération 4 : « Couleur du bureau corrigée, mais maintenant la pose est maladroite. » Génération 5 : « La pose est meilleure, mais l'arrière-plan est distrayant. » Génération 6-15 : Diverses tentatives pour corriger divers problèmes.
Coût total : $8,50. Temps total : 47 minutes. Résultat : « Ça va. Utilisons simplement celle-ci. »
C'est le coût caché de la génération d'images IA traditionnelle. Pas les appels API. L'itération. La mort par mille micro-ajustements.
Et le pire ? Chaque génération était indépendante. Le modèle ne se « souvenait » pas de ce que David aimait dans la Génération 2 lorsqu'il travaillait sur la Génération 3. C'était le Jour de la Marmotte, à chaque fois.
La Solution Traditionnelle (Et Pourquoi Elle est Cassée)
Solution 1 : Des Prompts Plus Longs et Plus Détaillés
Le conseil que tout le monde donnait : « Écrivez de meilleurs prompts. »
Alors David a appris l'ingénierie de prompts :
- « 8k, très détaillé, photographie professionnelle »
- « Style Unsplash, pris avec Canon R5, objectif 50mm »
- « éclairage doux diffus depuis la fenêtre à 14h, ISO 100, f/2.8 »
- « intérieur de bureau scandinave minimaliste avec chaise Eames »
Ses prompts atteignaient 200+ mots. Les résultats ? Marginalement meilleurs. Mais maintenant chaque prompt prenait 10 minutes à écrire. Et quand le client disait « En fait, essayons un bureau assis au lieu de debout », il réécrivait tout le roman.
Effort augmenté 10x. Résultats améliorés de 20%.
Solution 2 : Image-vers-Image
La plupart des outils ont ajouté des fonctionnalités img2img. Téléchargez votre image presque correcte, décrivez les changements, générez des variations.
Mieux, mais maladroit :
- Télécharger l'image
- Télécharger dans l'interface img2img
- Écrire un nouveau prompt décrivant les changements
- Ajuster le curseur de force (0,5 ? 0,7 ? 0,9 ?)
- Générer 3-4 variations
- Aucune ne semble correcte
- Réajuster la force
- Répéter
Et img2img avait un défaut fatal : c'était destructif. Chaque passe dégradait la qualité. Les détails devenaient flous. Des artefacts apparaissaient. À la génération 5, l'image ressemblait à une photocopie d'une photocopie.
Solution 3 : Édition en Couches + Inpainting
Flux de travail style Photoshop. Masquez la zone que vous voulez changer. Décrivez le changement. Générez.
Puissant, mais :
- Nécessitait des compétences techniques (masquage, couches, fusion)
- Long (5 minutes de masquage par édition)
- Style incohérent (les nouveaux éléments ne correspondaient pas toujours aux anciens)
David avait besoin de l'aide d'un designer pour les éditions complexes. La « démocratisation » de l'IA ne semblait pas très démocratique.
Nano Banana 2 : Le Modèle Conversationnel
Janvier 2026. Nano Banana 2 change la donne.
Pas avec de meilleurs prompts. Pas avec un meilleur img2img. Avec la conversation.
Le nouveau flux de travail de David pour la même image de page d'atterrissage :
Tour 1 :
David : « Générer un développeur travaillant à un bureau, bureau moderne »
Nano Banana 2 : [génère l'image]
Tour 2 :
David : « Faites-le debout, pas assis, et ajoutez un deuxième moniteur »
Nano Banana 2 : [met à jour l'image, même personne, maintenant debout, double écrans]
Tour 3 :
David : « L'éclairage semble trop artificiel. Faites-le lumière naturelle de fenêtre, fin d'après-midi »
Nano Banana 2 : [met à jour l'image, éclairage doré chaud]
Tour 4 :
David : « Éclairage parfait. Peut-on ajouter une plante dans le coin ? Un figuier de fiddle leaf grand »
Nano Banana 2 : [ajoute la plante, maintient l'éclairage et la composition]
Tour 5 :
David : « La plante est trop proéminente. Rendez-la plus petite et déplacez-la derrière le bureau »
Nano Banana 2 : [ajuste la taille et la position de la plante]
Coût total : $0,45 (5 tours). Temps total : 6 minutes. Résultat : « C'est exactement ce que je voulais. »
La différence est un changement de paradigme. David n'écrit pas de prompts. Il a une conversation. Le modèle se souvient du contexte. Chaque tour s'appuie sur le précédent. Pas de dégradation de qualité. Pas de recommencer à zéro.
Comment Fonctionne la Conversation-vers-Image
L'Architecture Technique
Modèle de diffusion traditionnel :
[Prompt A] → [Générer] → [Image A]
[Prompt B] → [Générer] → [Image B] (sans rapport avec A)
Conversation multimodale Nano Banana 2 :
[Prompt A] → [Générer] → [Image A + Contexte]
↓
[Prompt B + Image A + Contexte] → [Générer] → [Image B]
↓
[Prompt C + Image B + Contexte] → [Générer] → [Image C]
La clé : contexte multimodal persistant. Nano Banana 2 maintient une compréhension continue de :
- L'état visuel (image actuelle)
- L'historique de la conversation (ce qui a été demandé/changé)
- L'intention de l'utilisateur (ce qu'il essaie d'atteindre)
Ce n'est pas une régénération from scratch. C'est de l'édition avec compréhension.
Ce Qui le Rend « Natif »
D'autres outils ont boulonné la conversation sur des modèles existants :
- GPT-4V décrivant les images → DALL-E en générant de nouvelles
- Multiples appels API, multiples modèles, perte de contexte à chaque transfert
Nano Banana 2 est nativement multimodal. Un modèle. Une fenêtre de contexte. Vraie compréhension.
Le résultat :
- Cohérence : Les changements ont un sens visuel, pas des mutations aléatoires
- Mémoire : « Rendre la plante plus petite » se souvient quelle plante, où elle était
- Préservation de l'intention : « Gardez l'éclairage mais changez le bureau » maintient ce qui compte
Profondeur de Conversation
Combien de tours pouvez-vous faire ? La documentation de Google suggère un contexte efficace pour 10-20 tours d'échanges. En pratique :
| Nombre de Tours | Efficacité | Idéal Pour |
|---|---|---|
| 1-3 | 100% | Changements uniques rapides |
| 4-7 | 95% | Ajustements multi-éléments |
| 8-12 | 90% | Construction de scènes complexes |
| 13-20 | 80% | Affinage étendu |
| 20+ | Dégradation | Commencer une nouvelle session |
Conseil pro : Pour les scènes complexes, faites le travail fondamental en 5-7 tours, puis sauvegardez les images de référence et commencez une nouvelle conversation pour l'affinage.
Vous Pouvez Agir Maintenant
Votre Première Conversation
Temps requis : 10 minutes. Coût : ~$0,30.
Étape 1 : Ouvrez Google AI Studio. Sélectionnez Gemini 3.1 Flash Image.
Étape 2 : Commencez simplement :
« Une tasse de café sur une table en bois, lumière du matin »
Générez.
Étape 3 : Faites un changement :
« Changez la tasse en céramique bleue »
Générez. Même table. Même lumière. Tasse différente.
Étape 4 : Ajoutez un élément :
« Ajoutez un carnet et un stylo à côté de la tasse »
Générez. Tasse bleue, carnet, stylo. Composition cohérente.
Étape 5 : Ajustez la composition :
« Déplacez le carnet à gauche et ouvrez-le »
Générez. Disposition ajustée. Tout le reste préservé.
Étape 6 : Changez l'ambiance :
« Faites-en le soir avec une lumière de lampe chaude au lieu du matin »
Générez. Mêmes objets. Nouvel éclairage. Ombres cohérentes.
Vous venez d'avoir une conversation de 6 tours. Temps total : 4 minutes. Essayez de faire ça avec img2img traditionnel.
Modèles de Conversation Qui Fonctionnent
Modèle 1 : L'Approche Sculpture
Commencez large. Affinez étroit.
T1 : « Une scène de rue de ville »
T2 : « Faites-en une nuit pluvieuse à Tokyo »
T3 : « Ajoutez des enseignes néon en japonais »
T4 : « Incluez une personne avec un parapluie au premier plan »
T5 : « Faites le parapluie rouge »
T6 : « Ajoutez des reflets sur le pavé humide »
T7 : « Les reflets devraient montrer les enseignes néon »
Comme la sculpture : forme brute → détails moyens → détails fins.
Modèle 2 : L'Approche Test A/B
Explorez les variations sans perdre du terrain.
T1 : « Un salon moderne, style minimaliste »
[Bonne base]
T2 : « Changez le canapé en bleu »
[Voir option A]
T3 : « En fait, revenez à l'original et faites le canapé vert à la place »
[Option B - attendez, se souvient-il de « l'original » ?]
Limitation : Nano Banana 2 n'a pas de « annuler » au sens traditionnel. Il se souvient de la conversation, mais ne peut pas revenir à des états précédents arbitraires.
Solution de contournement : Sauvegardez les images de référence aux jalons clés. Si T3 va mal, commencez une nouvelle conversation avec l'image T1 comme référence.
Modèle 3 : La Boucle de Correction
Aller-retour naturel comme travailler avec un designer.
T1 : « Une personne randonnant en montagne »
[Image générée]
T2 : « La personne devrait porter des chaussures de randonnée, pas des baskets »
[Corrigé]
T3 : « Mieux, mais les chaussures semblent trop neuves. Faites-les usées et boueuses »
[Corrigé]
T4 : « Superbes chaussures. Maintenant le sac à dos semble trop petit. Faites-en un grand sac de randonnée »
[Corrigé]
T5 : « Parfait. Une dernière chose — ajoutez des bâtons de randonnée »
[Fait]
Chaque correction est comprise dans le contexte. Pas besoin de réexpliquer. Pas de recommencer à zéro.
Modèle 4 : L'Évolution de Scène
Construisez des scènes complexes progressivement.
T1 : « Une salle de classe vide »
T2 : « Ajoutez 6 bureaux disposés en cercle »
T3 : « Mettez un bureau d'enseignant à l'avant avec un ordinateur portable »
T4 : « Ajoutez un tableau blanc avec des équations mathématiques »
T5 : « Faites-en un après-midi ensoleillé avec la lumière entrant par les fenêtres »
T6 : « Ajoutez des ombres des cadres de fenêtre sur le sol »
Approche traditionnelle : Écrivez un prompt de 200 mots décrivant tout ça. Espérez que le modèle l'analyse correctement.
Approche conversation : Construisez en direct, vérifiez chaque élément, ajustez si nécessaire.
Ce Qui Fonctionne (Et Ce Qui Ne Fonctionne Pas)
Conversations Qui Coulent
Ajustements spatiaux :
- « Déplacez la voiture à gauche »
- « Rendez le bâtiment plus grand »
- « Ajoutez de l'espace entre les deux personnes »
Changements d'attributs :
- « Changez la couleur en bleu »
- « Faites-en la nuit au lieu du jour »
- « Ajoutez du brouillard/brume »
Ajout/suppression d'éléments :
- « Ajoutez un oiseau dans le ciel »
- « Retirez le logo du t-shirt »
- « Mettez une tasse de café dans leur main »
Transferts de style (dans une certaine mesure) :
- « Faites-le ressembler à une aquarelle »
- « Appliquez un look de film vintage »
- « Rendez-le plus photoréaliste »
Conversations Qui Peinent
Changements de perspective extrêmes :
- « Faites pivoter la scène de 90 degrés »
- « Montrez ceci d'une vue à vol d'oiseau »
- « Faites-en un gros plan du visage seul »
Ceux-ci fonctionnent mieux comme nouvelles générations avec références.
Ajout de multiples éléments complexes à la fois :
- « Ajoutez une foule, changez l'éclairage en coucher de soleil, faites-en qu'il pleuve, et ajoutez un enseigne néon »
Décomposez en étapes :
- « Ajoutez une foule » → vérifiez → « Changez l'éclairage en coucher de soleil » → vérifiez → etc.
Annuler des changements précédents :
- « En fait, revenez à l'aspect d'il y a 3 tours »
Nano Banana 2 ne maintient pas un arbre d'historique. Utilisez des images de référence aux jalons.
Instructions contradictoires :
- « Rendez-le plus clair mais aussi plus sombre »
- « Ajoutez plus de gens mais gardez-le minimaliste »
Le modèle fait de son mieux, mais des directions contradictoires produisent des résultats confus.
Flux de Travail en Production
Images Principales de Pages d'Atterrissage
Traditionnel :
- Écrivez 50 variantes de prompts
- Générez 100 images
- Filtrez à 10 options
- Le client en choisit 1
- Itérez 5 fois de plus
- Temps : 3-4 heures
Approche Conversationnelle :
- Commencez avec le concept
- Ayez une conversation de 10 tours pour affiner
- Le client observe/conseille en temps réel
- Verrouillez la version finale
- Temps : 20-30 minutes
Campagnes de Réseaux Sociaux
Besoin de 20 variations de la même scène pour des tests A/B ?
Tours 1-5 : Construisez la scène de base via conversation Tour 6 : « Sauvegardez ceci comme version A » Tour 7 : « Changez la couleur du texte du titre en rouge » → Version B Tour 8 : « Revenez à la version A, mais changez l'image d'arrière-plan » → Version C
En fait, comme il n'y a pas de « sauvegarde d'état », meilleure approche :
- Complétez la scène de base (5 tours)
- Sauvegardez l'image de référence
- Commencez 3 nouvelles conversations depuis cette référence :
- Convo B : « Changez la couleur du titre en rouge »
- Convo C : « Changez l'arrière-plan en paysage urbain »
- Convo D : « Ajoutez une citation de témoignage »
Itération de Storyboard
Un directeur de film a besoin d'itérer sur la composition de scène :
T1 : « Un détective assis dans un bureau sombre, style noir »
T2 : « Ajoutez des ombres de stores vénitiens depuis la fenêtre »
T3 : « Mettez un verre de whisky sur le bureau »
T4 : « Le verre devrait avoir de la glace et être à moitié plein »
T5 : « Ajoutez un pistolet à côté du verre »
T6 : « Faites refléter le pistolet la lumière de la fenêtre »
T7 : « Le détective devrait regarder le pistolet, pas la caméra »
T8 : « Ajoutez de la pluie à l'extérieur de la fenêtre »
Le directeur voit la composition évoluer. Prend des décisions en temps réel. Pas de loterie de génération « je saurai que c'est bien quand je le verrai ».
L'Économique de la Conversation
Comparaison des Coûts
Scénario : Affiner une image marketing à travers 10 itérations.
| Méthode | Itérations | Coût par | Coût Total | Temps |
|---|---|---|---|---|
| Génération Traditionnelle | 10 séparées | $0,05 | $0,50 | 30 min |
| img2img | 10 passes | $0,05 | $0,50 | 25 min |
| Nano Banana 2 | Convo 10 tours | $0,03 | $0,30 | 10 min |
Les économies ne sont pas seulement financières. Le temps et la bande passante mentale comptent plus.
Le Coût Caché : La Fatigue de Décision
Génération d'images IA traditionnelle :
- Générez 20 options
- Comparez 20 options
- Choisissez-en 1
- Doutez du choix
- Générez 20 de plus
- Ne soyez jamais satisfait
Approche conversationnelle :
- Construisez incrémentalement
- Validez chaque décision
- Arrivez à la satisfaction organiquement
- Sachez pourquoi l'image finale fonctionne
Limitations
Pas de Vrai Annuler
Une fois que vous avez emprunté un chemin, vous ne pouvez pas revenir en arrière arbitrairement. Solution de contournement : sauvegardez des images de référence aux points de décision clés.
Limites de la Fenêtre de Contexte
Après ~20 tours, le modèle peut commencer à oublier les détails de la conversation précoce. Pour les projets complexes, décomposez en plusieurs conversations avec des images de référence.
Focus Image Unique
Chaque conversation maintient une image active. Ne peut pas travailler sur plusieurs compositions simultanément. Solution de contournement : plusieurs onglets navigateur/conversations.
Nuance Linguistique
« Rendez-le plus dynamique » vs « Rendez-le plus énergique » — les différences de prompts subtiles comptent toujours. Le modèle comprend bien le langage naturel, mais pas parfaitement.
La Plus Grande Image
La conversation-vers-image n'est pas juste une fonctionnalité. C'est un changement de paradigme.
Les outils d'images IA traditionnels traitaient les utilisateurs comme des opérateurs de machine : écrivez des instructions précises, obtenez une sortie, répétez.
Nano Banana 2 traite les utilisateurs comme des collaborateurs : discutez, itérez, affinez ensemble.
Cela reflète comment les designers humains travaillent réellement :
- « Montrez-moi quelque chose »
- « Hmm, plus chaud »
- « Oui, comme ça, mais plus grand »
- « Parfait, ajoutez juste... »
Les meilleurs outils créatifs n'exécutent pas seulement des commandes. Ils s'engagent dans le dialogue.
Navigation dans la Série
Ceci est l'Article 2 de la Série Masterclass Nano Banana 2.
- Précédent : E01 : De LoRA à l'Apprentissage Zéro : La Révolution de la Cohérence des Personnages
- Suivant : E03 : De la Devinette de Prompts à la Logique Spatiale
- Vue d'Ensemble de la Série : Index Masterclass
La révolution de la conversation est là. Arrêtez de tirer le levier. Commencez à parler.
