返回博客

nano-banana

conversation

editing

workflow

multimodal

iterative-design

从文生图到对话生图

别再写提示词了，开始对话吧。Nano Banana 2 的多模态对话如何将图像生成从老虎机变成协作式设计流程。

发布于 2026-02-27

从文生图到对话生图

提示词工程的陷阱

2024 年，AI 图像生成就是一台老虎机。

你拉动拉杆——写一个提示词，点击生成——然后指望中大奖。大多数时候，你得到的是柠檬。于是你再拉一次。又一次。再一次。每次生成都要花钱。每次失败都要花时间。

认识一下 David。他在一家 SaaS 创业公司做市场总监。2024 年 10 月，他需要一张落地页的 hero 图："一位开发者在站立式办公桌前工作，现代办公室，自然光线，专注的表情，极简美学。"

他的工作流：

生成 1："开发者看起来太无聊了。能不能让他更投入一些？" 生成 2："表情好多了，但光线太硬了。" 生成 3："光线不错，但桌子的颜色错了。" 生成 4："桌子颜色改对了，但姿势很别扭。" 生成 5："姿势好多了，但背景太杂乱了。" 生成 6-15：各种尝试修复各种问题。

总成本：$8.50。总时间：47 分钟。结果："还行吧。就用这张了。"

这就是传统 AI 图像生成的隐藏成本。不是 API 调用费用。是迭代。被一千次微调折磨致死。

最糟糕的是？每次生成都相互独立。当 David 处理生成 3 时，模型不会"记住"他喜欢生成 2 的什么地方。每天都是土拨鼠日，一次又一次。

传统修复方案（以及为什么它们不管用）

方案 1：更长、更详细的提示词

每个人给的建议："写更好的提示词。"

于是 David 学会了提示词工程：

"8k，超高细节，专业摄影"
"Unsplash 风格，佳能 R5 拍摄，50mm 镜头"
"下午 2 点窗户透进来的柔和漫射光，ISO 100，f/2.8"
"极简斯堪的纳维亚办公室内饰配伊姆斯椅"

他的提示词长到 200+ 字。结果？稍微好一点。但现在每个提示词要写 10 分钟。当客户说"其实，试试坐姿办公桌而不是站立式"时，他重写了整篇小说。

工作量增加 10 倍。结果改善 20%。

方案 2：图生图

大多数工具加了 img2img 功能。上传你那张差不多对的图，描述修改，生成变体。

好一点，但笨拙：

下载图片
上传到 img2img 界面
写新提示词描述修改
调整强度滑块（0.5？0.7？0.9？）
生成 3-4 个变体
看起来都不对
再调强度
重复

而且 img2img 有个致命缺陷：它是破坏性的。每次处理都会降低质量。细节模糊。出现伪影。到第 5 代，图像看起来像复印件的复印件。

方案 3：分层编辑 + 局部重绘

Photoshop 风格的工作流。框选你想修改的区域。描述修改。生成。

强大，但：

需要技术技能（蒙版、图层、混合）
耗时（每次编辑蒙版 5 分钟）
风格不一致（新元素不总是匹配旧的）

复杂的编辑 David 需要设计师帮忙。AI 的"民主化"感觉不怎么民主。

Nano Banana 2：对话模型

2026 年 1 月。Nano Banana 2 改变了游戏规则。

不是用更好的提示词。不是用更好的图生图。而是用对话。

David 的新工作流，同样的落地页图片：

第 1 轮：

David: "生成一个开发者在办公桌前工作，现代办公室"
Nano Banana 2: [生成图片]

第 2 轮：

David: "让他站着而不是坐着，加第二个显示器"
Nano Banana 2: [更新图片，同一个人，现在站着，双显示器]

第 3 轮：

David: "光线感觉太人工了。改成自然窗户光，傍晚时分"
Nano Banana 2: [更新图片，温暖的金色时刻光线]

第 4 轮：

David: "光线完美。角落能不能加盆植物？一棵 tall 琴叶榕"
Nano Banana 2: [添加植物，保持光线和构图]

第 5 轮：

David: "植物太显眼了。做小一点移到桌子后面"
Nano Banana 2: [调整植物大小和位置]

总成本：$0.45（5 轮）。总时间：6 分钟。结果："这正是我想要的。"

差异是范式级的转变。David 不是在写提示词。他在对话。模型记得上下文。每一轮都建立在上一轮之上。没有质量退化。没有重新开始。

对话生图如何工作

技术架构

传统扩散模型：

[提示词 A] → [生成] → [图像 A]
[提示词 B] → [生成] → [图像 B]（与 A 无关）

Nano Banana 2 多模态对话：

[提示词 A] → [生成] → [图像 A + 上下文]
                                     ↓
[提示词 B + 图像 A + 上下文] → [生成] → [图像 B]
                                     ↓
[提示词 C + 图像 B + 上下文] → [生成] → [图像 C]

关键：持久多模态上下文。Nano Banana 2 保持对以下内容的持续理解：

视觉状态（当前图像）
对话历史（要求/修改过什么）
用户意图（想实现什么）

它不是从头重新生成。它是带着理解的编辑。

什么让它"原生"

其他工具把对话拼凑到现有模型上：

GPT-4V 描述图像 → DALL-E 生成新的
多次 API 调用，多个模型，每次交接都丢失上下文

Nano Banana 2 是原生多模态。一个模型。一个上下文窗口。真正的理解。

结果：

连贯性：修改有视觉意义，不是随机突变
记忆："把植物变小"记得是哪棵植物，在哪里
意图保持："保持光线但换桌子"保留重要的部分

对话深度

你能进行多少轮？Google 文档建议有效上下文支持 10-20 轮来回。实践中：

轮数	有效性	最适合
1-3	100%	快速单次修改
4-7	95%	多元素调整
8-12	90%	复杂场景构建
13-20	80%	持续细化
20+	退化	开启新会话

专业提示：对于复杂场景，用 5-7 轮完成基础工作，然后保存参考图，开启新对话进行微调。

你可以立即行动

你的第一次对话

所需时间：10 分钟。成本：约 $0.30。

步骤 1：打开 Google AI Studio。选择 Gemini 3.1 Flash Image。

步骤 2：从简单开始：

"一个咖啡杯在木桌上，晨光"

生成。

步骤 3：做个修改：

"把杯子改成蓝色陶瓷的"

生成。同样的桌子。同样的光线。不同的杯子。

步骤 4：添加元素：

"杯子旁边加个笔记本和笔"

生成。蓝色杯子，笔记本，笔。连贯的构图。

步骤 5：调整构图：

"把笔记本移到左边并打开"

生成。布局调整。其他一切保留。

步骤 6：改变氛围：

"改成傍晚，暖色灯光而不是早晨"

生成。同样的物品。新的光线。连贯的阴影。

你刚刚进行了 6 轮对话。总时间：4 分钟。试试用传统图生图做这个。

有效的对话模式

模式 1：雕塑方法

从宽开始。收窄细化。

T1: "一条城市街道场景"
T2: "改成东京雨夜"
T3: "加日文霓虹灯牌"
T4: "前景加个打伞的人"
T5: "把伞改成红色"
T6: "湿路面加倒影"
T7: "倒影应该显示霓虹灯牌"

像雕塑：粗形 → 中细节 → 精细节。

模式 2：A/B 测试方法

探索变体而不丢失已有成果。

T1: "一个现代客厅，极简风格"
[好的基础]

T2: "把沙发改成蓝色"
[看选项 A]

T3: "其实回到原版把沙发改成绿色"
[选项 B — 等等，它记得"原版"吗？]

限制：Nano Banana 2 没有传统意义上的"撤销"。它记得对话，但不能随意恢复到之前的状态。

变通方案：在关键里程碑保存参考图。如果 T3 出错，用 T1 的图像作为参考开启新对话。

模式 3：修正循环

像和设计师工作一样的自然来回。

T1: "一个人在山区徒步"
[图像生成]

T2: "这个人应该穿登山靴而不是运动鞋"
[修复]

T3: "好多了，但靴子看起来太新了。做旧一点，带点泥"
[修复]

T4: "靴子很棒。现在背包看起来太小了。改成大型登山包"
[修复]

T5: "完美。最后一件事——加根登山杖"
[完成]

每次修正都被理解在上下文中。不用重新解释。不用重新开始。

模式 4：场景演进

渐进式构建复杂场景。

T1: "一间空教室"
T2: "加 6 张桌子围成一圈"
T3: "前面放张讲台桌配笔记本"
T4: "白板上有数学公式"
T5: "下午阳光透过窗户照进来"
T6: "地板上添加窗户框架的阴影"

传统方法：写 200 字提示词描述所有这些。指望模型正确解析。

对话方法：实时构建，验证每个元素，按需调整。

什么有效（什么无效）

流畅的对话

空间调整：

"把车移到左边"
"让建筑更高"
"增加两人之间的空间"

属性变化：

"颜色改成蓝色"
"改成夜晚而不是白天"
"加雾/薄雾"

添加/删除元素：

"天空加只鸟"
"去掉衬衫上的 logo"
"手里放杯咖啡"

风格转换（合理范围内）：

"让它看起来像水彩画"
"应用复古胶片效果"
"让它更写实"

困难的对话

极端透视变化：

"把场景旋转 90 度"
"俯视角度"
"特写脸部"

这些用参考图重新生成效果更好。

同时添加多个复杂元素：

"加人群、光线改成日落、让它下雨、再加霓虹灯牌"

分成步骤：

"加人群" → 验证 → "光线改成日落" → 验证 → 等等。

撤销之前的修改：

"其实，回到 3 轮前的样子"

Nano Banana 2 不维护历史树。在里程碑保存参考图。

矛盾的指令：

"让它更亮但也更暗"
"加更多人但保持极简"

模型会尽力，但矛盾的方向产生混乱的结果。

生产工作流

落地页 Hero 图片

传统：

写 50 个提示词变体
生成 100 张图
筛选到 10 个选项
客户选 1 个
再迭代 5 次
时间：3-4 小时

对话方法：

从概念开始
进行 10 轮对话细化
客户实时观看/建议
锁定最终版本
时间：20-30 分钟

社交媒体营销活动

需要 20 个同一场景的变体做 A/B 测试？

第 1-5 轮：通过对话完成基础场景 第 6 轮："把这个存成版本 A" 第 7 轮："回到版本 A，但把标题文字颜色改成红色" → 版本 B

其实，因为没有"保存状态"，更好的方法：

完成基础场景（5 轮）
保存参考图
开启 3 个新对话，以该参考图为起点：
- 对话 B："标题颜色改成红色"
- 对话 C："背景改成城市景观"
- 对话 D："加段客户评价"

故事板迭代

电影导演需要迭代场景构图：

T1: "过肩镜头，人物看墙上的画，戏剧性单顶光"
T2: "加百叶窗窗户的阴影"
T3: "桌上放杯威士忌"
T4: "杯子应该有冰块，半满"
T5: "杯子旁边加把枪"
T6: "让枪反射窗户光线"
T7: "人物应该看着枪而不是镜头"
T8: "窗外加雨"

导演看着构图演进。实时做决策。不用"我会认出来"的生成彩票。

对话的经济学

成本对比

场景：通过 10 次迭代优化营销图片。

方法	迭代	单次成本	总成本	时间
传统生成	10 次独立	$0.05	$0.50	30 分钟
图生图	10 次处理	$0.05	$0.50	25 分钟
Nano Banana 2	10 轮对话	$0.03	$0.30	10 分钟

节省的不只是钱。时间和脑力更重要。

隐藏成本：决策疲劳

传统 AI 图像生成：

生成 20 个选项
比较 20 个选项
选 1 个
怀疑选择
再生成 20 个
从不满意

对话方法：

渐进式构建
验证每个决策
有机地达到满意
知道为什么最终图像有效

限制

没有真正的撤销

一旦走上某条路，不能任意分支返回。变通方案：在关键决策点保存参考图。

上下文窗口限制

大约 20 轮后，模型可能开始忘记早期对话细节。复杂项目用参考图分成多个对话。

单图像聚焦

每次对话维护一个活跃图像。不能同时处理多个构图。变通方案：多个浏览器标签/对话。

语言细微差别

"让它更动感" vs "让它更有活力"——细微的提示差异仍然重要。模型理解自然语言很好，但不完美。

更大的图景

对话生图不只是一个功能。它是一个范式转变。

传统 AI 图像工具把用户当成机器操作员：写精确指令，获取输出，重复。

Nano Banana 2 把用户当成协作者：讨论，迭代，一起细化。

这反映了人类设计师的实际工作方式：

"给我看些东西"
"嗯，暖一点"
"对，像那样，但更大"
"完美，只要加..."

最好的创意工具不只是执行命令。它们参与对话。

系列导航

这是 Nano Banana 2 大师课系列的第 2 篇。

上一篇：E01：从 LoRA 到零训练：角色一致性革命
下一篇：E03：从混乱到物理：空间逻辑
系列总览：大师课索引

对话革命来了。别再拉杠杆了。开始对话吧。