返回博客
nano-banana
conversation
editing
workflow
multimodal
iterative-design

从文生图到对话生图

别再写提示词了,开始对话吧。Nano Banana 2 的多模态对话如何将图像生成从老虎机变成协作式设计流程。

发布于 2026-02-27

从文生图到对话生图

提示词工程的陷阱

2024 年,AI 图像生成就是一台老虎机。

你拉动拉杆——写一个提示词,点击生成——然后指望中大奖。大多数时候,你得到的是柠檬。于是你再拉一次。又一次。再一次。每次生成都要花钱。每次失败都要花时间。

认识一下 David。他在一家 SaaS 创业公司做市场总监。2024 年 10 月,他需要一张落地页的 hero 图:"一位开发者在站立式办公桌前工作,现代办公室,自然光线,专注的表情,极简美学。"

他的工作流:

生成 1:"开发者看起来太无聊了。能不能让他更投入一些?" 生成 2:"表情好多了,但光线太硬了。" 生成 3:"光线不错,但桌子的颜色错了。" 生成 4:"桌子颜色改对了,但姿势很别扭。" 生成 5:"姿势好多了,但背景太杂乱了。" 生成 6-15:各种尝试修复各种问题。

总成本:$8.50。总时间:47 分钟。结果:"还行吧。就用这张了。"

这就是传统 AI 图像生成的隐藏成本。不是 API 调用费用。是迭代。被一千次微调折磨致死。

最糟糕的是?每次生成都相互独立。当 David 处理生成 3 时,模型不会"记住"他喜欢生成 2 的什么地方。每天都是土拨鼠日,一次又一次。


传统修复方案(以及为什么它们不管用)

方案 1:更长、更详细的提示词

每个人给的建议:"写更好的提示词。"

于是 David 学会了提示词工程:

  • "8k,超高细节,专业摄影"
  • "Unsplash 风格,佳能 R5 拍摄,50mm 镜头"
  • "下午 2 点窗户透进来的柔和漫射光,ISO 100,f/2.8"
  • "极简斯堪的纳维亚办公室内饰配伊姆斯椅"

他的提示词长到 200+ 字。结果?稍微好一点。但现在每个提示词要写 10 分钟。当客户说"其实,试试坐姿办公桌而不是站立式"时,他重写了整篇小说。

工作量增加 10 倍。结果改善 20%。

方案 2:图生图

大多数工具加了 img2img 功能。上传你那张差不多对的图,描述修改,生成变体。

好一点,但笨拙:

  1. 下载图片
  2. 上传到 img2img 界面
  3. 写新提示词描述修改
  4. 调整强度滑块(0.5?0.7?0.9?)
  5. 生成 3-4 个变体
  6. 看起来都不对
  7. 再调强度
  8. 重复

而且 img2img 有个致命缺陷:它是破坏性的。每次处理都会降低质量。细节模糊。出现伪影。到第 5 代,图像看起来像复印件的复印件。

方案 3:分层编辑 + 局部重绘

Photoshop 风格的工作流。框选你想修改的区域。描述修改。生成。

强大,但:

  • 需要技术技能(蒙版、图层、混合)
  • 耗时(每次编辑蒙版 5 分钟)
  • 风格不一致(新元素不总是匹配旧的)

复杂的编辑 David 需要设计师帮忙。AI 的"民主化"感觉不怎么民主。


Nano Banana 2:对话模型

2026 年 1 月。Nano Banana 2 改变了游戏规则。

不是用更好的提示词。不是用更好的图生图。而是用对话

David 的新工作流,同样的落地页图片:

第 1 轮

David: "生成一个开发者在办公桌前工作,现代办公室"
Nano Banana 2: [生成图片]

第 2 轮

David: "让他站着而不是坐着,加第二个显示器"
Nano Banana 2: [更新图片,同一个人,现在站着,双显示器]

第 3 轮

David: "光线感觉太人工了。改成自然窗户光,傍晚时分"
Nano Banana 2: [更新图片,温暖的金色时刻光线]

第 4 轮

David: "光线完美。角落能不能加盆植物?一棵 tall 琴叶榕"
Nano Banana 2: [添加植物,保持光线和构图]

第 5 轮

David: "植物太显眼了。做小一点移到桌子后面"
Nano Banana 2: [调整植物大小和位置]

总成本:$0.45(5 轮)。总时间:6 分钟。结果:"这正是我想要的。"

差异是范式级的转变。David 不是在写提示词。他在对话。模型记得上下文。每一轮都建立在上一轮之上。没有质量退化。没有重新开始。


对话生图如何工作

技术架构

传统扩散模型:

[提示词 A] → [生成] → [图像 A]
[提示词 B] → [生成] → [图像 B](与 A 无关)

Nano Banana 2 多模态对话:

[提示词 A] → [生成] → [图像 A + 上下文]
                                     ↓
[提示词 B + 图像 A + 上下文] → [生成] → [图像 B]
                                     ↓
[提示词 C + 图像 B + 上下文] → [生成] → [图像 C]

关键:持久多模态上下文。Nano Banana 2 保持对以下内容的持续理解:

  • 视觉状态(当前图像)
  • 对话历史(要求/修改过什么)
  • 用户意图(想实现什么)

它不是从头重新生成。它是带着理解的编辑

什么让它"原生"

其他工具把对话拼凑到现有模型上:

  • GPT-4V 描述图像 → DALL-E 生成新的
  • 多次 API 调用,多个模型,每次交接都丢失上下文

Nano Banana 2 是原生多模态。一个模型。一个上下文窗口。真正的理解。

结果:

  • 连贯性:修改有视觉意义,不是随机突变
  • 记忆:"把植物变小"记得是哪棵植物,在哪里
  • 意图保持:"保持光线但换桌子"保留重要的部分

对话深度

你能进行多少轮?Google 文档建议有效上下文支持 10-20 轮来回。实践中:

轮数有效性最适合
1-3100%快速单次修改
4-795%多元素调整
8-1290%复杂场景构建
13-2080%持续细化
20+退化开启新会话

专业提示:对于复杂场景,用 5-7 轮完成基础工作,然后保存参考图,开启新对话进行微调。


你可以立即行动

你的第一次对话

所需时间:10 分钟。成本:约 $0.30。

步骤 1:打开 Google AI Studio。选择 Gemini 3.1 Flash Image。

步骤 2:从简单开始:

"一个咖啡杯在木桌上,晨光"

生成。

步骤 3:做个修改:

"把杯子改成蓝色陶瓷的"

生成。同样的桌子。同样的光线。不同的杯子。

步骤 4:添加元素:

"杯子旁边加个笔记本和笔"

生成。蓝色杯子,笔记本,笔。连贯的构图。

步骤 5:调整构图:

"把笔记本移到左边并打开"

生成。布局调整。其他一切保留。

步骤 6:改变氛围:

"改成傍晚,暖色灯光而不是早晨"

生成。同样的物品。新的光线。连贯的阴影。

你刚刚进行了 6 轮对话。总时间:4 分钟。试试用传统图生图做这个。


有效的对话模式

模式 1:雕塑方法

从宽开始。收窄细化。

T1: "一条城市街道场景"
T2: "改成东京雨夜"
T3: "加日文霓虹灯牌"
T4: "前景加个打伞的人"
T5: "把伞改成红色"
T6: "湿路面加倒影"
T7: "倒影应该显示霓虹灯牌"

像雕塑:粗形 → 中细节 → 精细节。

模式 2:A/B 测试方法

探索变体而不丢失已有成果。

T1: "一个现代客厅,极简风格"
[好的基础]

T2: "把沙发改成蓝色"
[看选项 A]

T3: "其实回到原版把沙发改成绿色"
[选项 B — 等等,它记得"原版"吗?]

限制:Nano Banana 2 没有传统意义上的"撤销"。它记得对话,但不能随意恢复到之前的状态。

变通方案:在关键里程碑保存参考图。如果 T3 出错,用 T1 的图像作为参考开启新对话。

模式 3:修正循环

像和设计师工作一样的自然来回。

T1: "一个人在山区徒步"
[图像生成]

T2: "这个人应该穿登山靴而不是运动鞋"
[修复]

T3: "好多了,但靴子看起来太新了。做旧一点,带点泥"
[修复]

T4: "靴子很棒。现在背包看起来太小了。改成大型登山包"
[修复]

T5: "完美。最后一件事——加根登山杖"
[完成]

每次修正都被理解在上下文中。不用重新解释。不用重新开始。

模式 4:场景演进

渐进式构建复杂场景。

T1: "一间空教室"
T2: "加 6 张桌子围成一圈"
T3: "前面放张讲台桌配笔记本"
T4: "白板上有数学公式"
T5: "下午阳光透过窗户照进来"
T6: "地板上添加窗户框架的阴影"

传统方法:写 200 字提示词描述所有这些。指望模型正确解析。

对话方法:实时构建,验证每个元素,按需调整。


什么有效(什么无效)

流畅的对话

空间调整

  • "把车移到左边"
  • "让建筑更高"
  • "增加两人之间的空间"

属性变化

  • "颜色改成蓝色"
  • "改成夜晚而不是白天"
  • "加雾/薄雾"

添加/删除元素

  • "天空加只鸟"
  • "去掉衬衫上的 logo"
  • "手里放杯咖啡"

风格转换(合理范围内):

  • "让它看起来像水彩画"
  • "应用复古胶片效果"
  • "让它更写实"

困难的对话

极端透视变化

  • "把场景旋转 90 度"
  • "俯视角度"
  • "特写脸部"

这些用参考图重新生成效果更好。

同时添加多个复杂元素

  • "加人群、光线改成日落、让它下雨、再加霓虹灯牌"

分成步骤:

  • "加人群" → 验证 → "光线改成日落" → 验证 → 等等。

撤销之前的修改

  • "其实,回到 3 轮前的样子"

Nano Banana 2 不维护历史树。在里程碑保存参考图。

矛盾的指令

  • "让它更亮但也更暗"
  • "加更多人但保持极简"

模型会尽力,但矛盾的方向产生混乱的结果。


生产工作流

落地页 Hero 图片

传统

  • 写 50 个提示词变体
  • 生成 100 张图
  • 筛选到 10 个选项
  • 客户选 1 个
  • 再迭代 5 次
  • 时间:3-4 小时

对话方法

  • 从概念开始
  • 进行 10 轮对话细化
  • 客户实时观看/建议
  • 锁定最终版本
  • 时间:20-30 分钟

社交媒体营销活动

需要 20 个同一场景的变体做 A/B 测试?

第 1-5 轮:通过对话完成基础场景 第 6 轮:"把这个存成版本 A" 第 7 轮:"回到版本 A,但把标题文字颜色改成红色" → 版本 B

其实,因为没有"保存状态",更好的方法:

  • 完成基础场景(5 轮)
  • 保存参考图
  • 开启 3 个新对话,以该参考图为起点:
    • 对话 B:"标题颜色改成红色"
    • 对话 C:"背景改成城市景观"
    • 对话 D:"加段客户评价"

故事板迭代

电影导演需要迭代场景构图:

T1: "过肩镜头,人物看墙上的画,戏剧性单顶光"
T2: "加百叶窗窗户的阴影"
T3: "桌上放杯威士忌"
T4: "杯子应该有冰块,半满"
T5: "杯子旁边加把枪"
T6: "让枪反射窗户光线"
T7: "人物应该看着枪而不是镜头"
T8: "窗外加雨"

导演看着构图演进。实时做决策。不用"我会认出来"的生成彩票。


对话的经济学

成本对比

场景:通过 10 次迭代优化营销图片。

方法迭代单次成本总成本时间
传统生成10 次独立$0.05$0.5030 分钟
图生图10 次处理$0.05$0.5025 分钟
Nano Banana 210 轮对话$0.03$0.3010 分钟

节省的不只是钱。时间和脑力更重要。

隐藏成本:决策疲劳

传统 AI 图像生成:

  • 生成 20 个选项
  • 比较 20 个选项
  • 选 1 个
  • 怀疑选择
  • 再生成 20 个
  • 从不满意

对话方法:

  • 渐进式构建
  • 验证每个决策
  • 有机地达到满意
  • 知道为什么最终图像有效

限制

没有真正的撤销

一旦走上某条路,不能任意分支返回。变通方案:在关键决策点保存参考图。

上下文窗口限制

大约 20 轮后,模型可能开始忘记早期对话细节。复杂项目用参考图分成多个对话。

单图像聚焦

每次对话维护一个活跃图像。不能同时处理多个构图。变通方案:多个浏览器标签/对话。

语言细微差别

"让它更动感" vs "让它更有活力"——细微的提示差异仍然重要。模型理解自然语言很好,但不完美。


更大的图景

对话生图不只是一个功能。它是一个范式转变

传统 AI 图像工具把用户当成机器操作员:写精确指令,获取输出,重复。

Nano Banana 2 把用户当成协作者:讨论,迭代,一起细化。

这反映了人类设计师的实际工作方式:

  • "给我看些东西"
  • "嗯,暖一点"
  • "对,像那样,但更大"
  • "完美,只要加..."

最好的创意工具不只是执行命令。它们参与对话。


系列导航

这是 Nano Banana 2 大师课系列的第 2 篇


对话革命来了。别再拉杠杆了。开始对话吧。