从文生图到对话生图
别再写提示词了,开始对话吧。Nano Banana 2 的多模态对话如何将图像生成从老虎机变成协作式设计流程。
发布于 2026-02-27
从文生图到对话生图
提示词工程的陷阱
2024 年,AI 图像生成就是一台老虎机。
你拉动拉杆——写一个提示词,点击生成——然后指望中大奖。大多数时候,你得到的是柠檬。于是你再拉一次。又一次。再一次。每次生成都要花钱。每次失败都要花时间。
认识一下 David。他在一家 SaaS 创业公司做市场总监。2024 年 10 月,他需要一张落地页的 hero 图:"一位开发者在站立式办公桌前工作,现代办公室,自然光线,专注的表情,极简美学。"
他的工作流:
生成 1:"开发者看起来太无聊了。能不能让他更投入一些?" 生成 2:"表情好多了,但光线太硬了。" 生成 3:"光线不错,但桌子的颜色错了。" 生成 4:"桌子颜色改对了,但姿势很别扭。" 生成 5:"姿势好多了,但背景太杂乱了。" 生成 6-15:各种尝试修复各种问题。
总成本:$8.50。总时间:47 分钟。结果:"还行吧。就用这张了。"
这就是传统 AI 图像生成的隐藏成本。不是 API 调用费用。是迭代。被一千次微调折磨致死。
最糟糕的是?每次生成都相互独立。当 David 处理生成 3 时,模型不会"记住"他喜欢生成 2 的什么地方。每天都是土拨鼠日,一次又一次。
传统修复方案(以及为什么它们不管用)
方案 1:更长、更详细的提示词
每个人给的建议:"写更好的提示词。"
于是 David 学会了提示词工程:
- "8k,超高细节,专业摄影"
- "Unsplash 风格,佳能 R5 拍摄,50mm 镜头"
- "下午 2 点窗户透进来的柔和漫射光,ISO 100,f/2.8"
- "极简斯堪的纳维亚办公室内饰配伊姆斯椅"
他的提示词长到 200+ 字。结果?稍微好一点。但现在每个提示词要写 10 分钟。当客户说"其实,试试坐姿办公桌而不是站立式"时,他重写了整篇小说。
工作量增加 10 倍。结果改善 20%。
方案 2:图生图
大多数工具加了 img2img 功能。上传你那张差不多对的图,描述修改,生成变体。
好一点,但笨拙:
- 下载图片
- 上传到 img2img 界面
- 写新提示词描述修改
- 调整强度滑块(0.5?0.7?0.9?)
- 生成 3-4 个变体
- 看起来都不对
- 再调强度
- 重复
而且 img2img 有个致命缺陷:它是破坏性的。每次处理都会降低质量。细节模糊。出现伪影。到第 5 代,图像看起来像复印件的复印件。
方案 3:分层编辑 + 局部重绘
Photoshop 风格的工作流。框选你想修改的区域。描述修改。生成。
强大,但:
- 需要技术技能(蒙版、图层、混合)
- 耗时(每次编辑蒙版 5 分钟)
- 风格不一致(新元素不总是匹配旧的)
复杂的编辑 David 需要设计师帮忙。AI 的"民主化"感觉不怎么民主。
Nano Banana 2:对话模型
2026 年 1 月。Nano Banana 2 改变了游戏规则。
不是用更好的提示词。不是用更好的图生图。而是用对话。
David 的新工作流,同样的落地页图片:
第 1 轮:
David: "生成一个开发者在办公桌前工作,现代办公室"
Nano Banana 2: [生成图片]
第 2 轮:
David: "让他站着而不是坐着,加第二个显示器"
Nano Banana 2: [更新图片,同一个人,现在站着,双显示器]
第 3 轮:
David: "光线感觉太人工了。改成自然窗户光,傍晚时分"
Nano Banana 2: [更新图片,温暖的金色时刻光线]
第 4 轮:
David: "光线完美。角落能不能加盆植物?一棵 tall 琴叶榕"
Nano Banana 2: [添加植物,保持光线和构图]
第 5 轮:
David: "植物太显眼了。做小一点移到桌子后面"
Nano Banana 2: [调整植物大小和位置]
总成本:$0.45(5 轮)。总时间:6 分钟。结果:"这正是我想要的。"
差异是范式级的转变。David 不是在写提示词。他在对话。模型记得上下文。每一轮都建立在上一轮之上。没有质量退化。没有重新开始。
对话生图如何工作
技术架构
传统扩散模型:
[提示词 A] → [生成] → [图像 A]
[提示词 B] → [生成] → [图像 B](与 A 无关)
Nano Banana 2 多模态对话:
[提示词 A] → [生成] → [图像 A + 上下文]
↓
[提示词 B + 图像 A + 上下文] → [生成] → [图像 B]
↓
[提示词 C + 图像 B + 上下文] → [生成] → [图像 C]
关键:持久多模态上下文。Nano Banana 2 保持对以下内容的持续理解:
- 视觉状态(当前图像)
- 对话历史(要求/修改过什么)
- 用户意图(想实现什么)
它不是从头重新生成。它是带着理解的编辑。
什么让它"原生"
其他工具把对话拼凑到现有模型上:
- GPT-4V 描述图像 → DALL-E 生成新的
- 多次 API 调用,多个模型,每次交接都丢失上下文
Nano Banana 2 是原生多模态。一个模型。一个上下文窗口。真正的理解。
结果:
- 连贯性:修改有视觉意义,不是随机突变
- 记忆:"把植物变小"记得是哪棵植物,在哪里
- 意图保持:"保持光线但换桌子"保留重要的部分
对话深度
你能进行多少轮?Google 文档建议有效上下文支持 10-20 轮来回。实践中:
| 轮数 | 有效性 | 最适合 |
|---|---|---|
| 1-3 | 100% | 快速单次修改 |
| 4-7 | 95% | 多元素调整 |
| 8-12 | 90% | 复杂场景构建 |
| 13-20 | 80% | 持续细化 |
| 20+ | 退化 | 开启新会话 |
专业提示:对于复杂场景,用 5-7 轮完成基础工作,然后保存参考图,开启新对话进行微调。
你可以立即行动
你的第一次对话
所需时间:10 分钟。成本:约 $0.30。
步骤 1:打开 Google AI Studio。选择 Gemini 3.1 Flash Image。
步骤 2:从简单开始:
"一个咖啡杯在木桌上,晨光"
生成。
步骤 3:做个修改:
"把杯子改成蓝色陶瓷的"
生成。同样的桌子。同样的光线。不同的杯子。
步骤 4:添加元素:
"杯子旁边加个笔记本和笔"
生成。蓝色杯子,笔记本,笔。连贯的构图。
步骤 5:调整构图:
"把笔记本移到左边并打开"
生成。布局调整。其他一切保留。
步骤 6:改变氛围:
"改成傍晚,暖色灯光而不是早晨"
生成。同样的物品。新的光线。连贯的阴影。
你刚刚进行了 6 轮对话。总时间:4 分钟。试试用传统图生图做这个。
有效的对话模式
模式 1:雕塑方法
从宽开始。收窄细化。
T1: "一条城市街道场景"
T2: "改成东京雨夜"
T3: "加日文霓虹灯牌"
T4: "前景加个打伞的人"
T5: "把伞改成红色"
T6: "湿路面加倒影"
T7: "倒影应该显示霓虹灯牌"
像雕塑:粗形 → 中细节 → 精细节。
模式 2:A/B 测试方法
探索变体而不丢失已有成果。
T1: "一个现代客厅,极简风格"
[好的基础]
T2: "把沙发改成蓝色"
[看选项 A]
T3: "其实回到原版把沙发改成绿色"
[选项 B — 等等,它记得"原版"吗?]
限制:Nano Banana 2 没有传统意义上的"撤销"。它记得对话,但不能随意恢复到之前的状态。
变通方案:在关键里程碑保存参考图。如果 T3 出错,用 T1 的图像作为参考开启新对话。
模式 3:修正循环
像和设计师工作一样的自然来回。
T1: "一个人在山区徒步"
[图像生成]
T2: "这个人应该穿登山靴而不是运动鞋"
[修复]
T3: "好多了,但靴子看起来太新了。做旧一点,带点泥"
[修复]
T4: "靴子很棒。现在背包看起来太小了。改成大型登山包"
[修复]
T5: "完美。最后一件事——加根登山杖"
[完成]
每次修正都被理解在上下文中。不用重新解释。不用重新开始。
模式 4:场景演进
渐进式构建复杂场景。
T1: "一间空教室"
T2: "加 6 张桌子围成一圈"
T3: "前面放张讲台桌配笔记本"
T4: "白板上有数学公式"
T5: "下午阳光透过窗户照进来"
T6: "地板上添加窗户框架的阴影"
传统方法:写 200 字提示词描述所有这些。指望模型正确解析。
对话方法:实时构建,验证每个元素,按需调整。
什么有效(什么无效)
流畅的对话
空间调整:
- "把车移到左边"
- "让建筑更高"
- "增加两人之间的空间"
属性变化:
- "颜色改成蓝色"
- "改成夜晚而不是白天"
- "加雾/薄雾"
添加/删除元素:
- "天空加只鸟"
- "去掉衬衫上的 logo"
- "手里放杯咖啡"
风格转换(合理范围内):
- "让它看起来像水彩画"
- "应用复古胶片效果"
- "让它更写实"
困难的对话
极端透视变化:
- "把场景旋转 90 度"
- "俯视角度"
- "特写脸部"
这些用参考图重新生成效果更好。
同时添加多个复杂元素:
- "加人群、光线改成日落、让它下雨、再加霓虹灯牌"
分成步骤:
- "加人群" → 验证 → "光线改成日落" → 验证 → 等等。
撤销之前的修改:
- "其实,回到 3 轮前的样子"
Nano Banana 2 不维护历史树。在里程碑保存参考图。
矛盾的指令:
- "让它更亮但也更暗"
- "加更多人但保持极简"
模型会尽力,但矛盾的方向产生混乱的结果。
生产工作流
落地页 Hero 图片
传统:
- 写 50 个提示词变体
- 生成 100 张图
- 筛选到 10 个选项
- 客户选 1 个
- 再迭代 5 次
- 时间:3-4 小时
对话方法:
- 从概念开始
- 进行 10 轮对话细化
- 客户实时观看/建议
- 锁定最终版本
- 时间:20-30 分钟
社交媒体营销活动
需要 20 个同一场景的变体做 A/B 测试?
第 1-5 轮:通过对话完成基础场景 第 6 轮:"把这个存成版本 A" 第 7 轮:"回到版本 A,但把标题文字颜色改成红色" → 版本 B
其实,因为没有"保存状态",更好的方法:
- 完成基础场景(5 轮)
- 保存参考图
- 开启 3 个新对话,以该参考图为起点:
- 对话 B:"标题颜色改成红色"
- 对话 C:"背景改成城市景观"
- 对话 D:"加段客户评价"
故事板迭代
电影导演需要迭代场景构图:
T1: "过肩镜头,人物看墙上的画,戏剧性单顶光"
T2: "加百叶窗窗户的阴影"
T3: "桌上放杯威士忌"
T4: "杯子应该有冰块,半满"
T5: "杯子旁边加把枪"
T6: "让枪反射窗户光线"
T7: "人物应该看着枪而不是镜头"
T8: "窗外加雨"
导演看着构图演进。实时做决策。不用"我会认出来"的生成彩票。
对话的经济学
成本对比
场景:通过 10 次迭代优化营销图片。
| 方法 | 迭代 | 单次成本 | 总成本 | 时间 |
|---|---|---|---|---|
| 传统生成 | 10 次独立 | $0.05 | $0.50 | 30 分钟 |
| 图生图 | 10 次处理 | $0.05 | $0.50 | 25 分钟 |
| Nano Banana 2 | 10 轮对话 | $0.03 | $0.30 | 10 分钟 |
节省的不只是钱。时间和脑力更重要。
隐藏成本:决策疲劳
传统 AI 图像生成:
- 生成 20 个选项
- 比较 20 个选项
- 选 1 个
- 怀疑选择
- 再生成 20 个
- 从不满意
对话方法:
- 渐进式构建
- 验证每个决策
- 有机地达到满意
- 知道为什么最终图像有效
限制
没有真正的撤销
一旦走上某条路,不能任意分支返回。变通方案:在关键决策点保存参考图。
上下文窗口限制
大约 20 轮后,模型可能开始忘记早期对话细节。复杂项目用参考图分成多个对话。
单图像聚焦
每次对话维护一个活跃图像。不能同时处理多个构图。变通方案:多个浏览器标签/对话。
语言细微差别
"让它更动感" vs "让它更有活力"——细微的提示差异仍然重要。模型理解自然语言很好,但不完美。
更大的图景
对话生图不只是一个功能。它是一个范式转变。
传统 AI 图像工具把用户当成机器操作员:写精确指令,获取输出,重复。
Nano Banana 2 把用户当成协作者:讨论,迭代,一起细化。
这反映了人类设计师的实际工作方式:
- "给我看些东西"
- "嗯,暖一点"
- "对,像那样,但更大"
- "完美,只要加..."
最好的创意工具不只是执行命令。它们参与对话。
系列导航
这是 Nano Banana 2 大师课系列的第 2 篇。
- 上一篇:E01:从 LoRA 到零训练:角色一致性革命
- 下一篇:E03:从混乱到物理:空间逻辑
- 系列总览:大师课索引
对话革命来了。别再拉杠杆了。开始对话吧。
