返回部落格

nano-banana

conversation

editing

workflow

multimodal

iterative-design

從文字生成圖像到對話生成圖像

停止撰寫提示詞。開始對話。Nano Banana 2 的多模態對話如何將圖像生成從老虎機變成協作式設計流程。

發布於 2026-02-27

從文字生成圖像到對話生成圖像

提示詞工程的陷阱

2024年，AI圖像生成就像老虎機。

你拉動拉桿——寫一個提示詞，點擊生成——然後祈禱中大獎。大多數時候，你得到的是檸檬。所以你再拉一次。又一次。再一次。每次生成都要花錢。每次失敗都要花時間。

認識一下David。他在一家SaaS新創公司擔任行銷總監。2024年10月，他需要一張登陸頁面的主圖："一位開發者在站立式辦公桌前工作，現代辦公室，自然光線，專注的表情，極簡美學。"

他的工作流程：

生成1："開發者看起來太無聊了。我們能讓他看起來更投入嗎？" 生成2："表情好多了，但光線太強了。" 生成3："光線不錯，但桌子的顏色錯了。" 生成4："桌子顏色改對了，但姿勢很彆扭。" 生成5："姿勢好多了，但背景太分散注意力了。" 生成6-15：各種嘗試修復各種問題。

總成本：$8.50。總時間：47分鐘。結果："還行吧。就用這張了。"

這就是傳統AI圖像生成的隱藏成本。不是API調用費用。是迭代。被一千次微調折磨至死。

最糟糕的是？每次生成都相互獨立。當David處理生成3時，模型不會"記住"他在生成2中喜歡的什麼。每天都是土撥鼠日，一次又一次。

傳統解決方案（以及為什麼它們行不通）

方案1：更長、更詳細的提示詞

每個人給的建議："寫更好的提示詞。"

於是David學會了提示詞工程：

"8k，超高細節，專業攝影"
"Unsplash風格，佳能R5拍攝，50mm鏡頭"
"下午2點窗戶透進來的柔和漫射光，ISO 100，f/2.8"
"極簡斯堪地那維亞辦公室內飾搭配Eames椅"

他的提示詞長到200多個字。結果？稍微好一點。但現在每個提示詞要寫10分鐘。當客戶說"其實，試試坐式辦公桌而不是站立式"時，他重寫了整篇文章。

工作量增加10倍。結果改善20%。

方案2：圖生圖

大多數工具新增了img2img功能。上傳你那張差不多對的圖，描述修改，生成變體。

更好，但很笨拙：

下載圖像
上傳到img2img界面
撰寫新提示詞描述修改
調整強度滑塊（0.5？0.7？0.9？）
生成3-4個變體
看起來都不對
再調強度
重複

而且img2img有個致命缺陷：它是破壞性的。每次處理都會降低質量。細節模糊。出現偽影。到第5代，圖像看起來像影印件的影印件。

方案3：分層編輯+局部重繪

Photoshop風格的工作流。選取你想修改的區域。描述修改。生成。

強大，但：

需要技術技能（遮罩、圖層、混合）
耗時（每次編輯遮罩5分鐘）
風格不一致（新元素不總是匹配舊的）

複雜的編輯David需要設計師幫忙。AI的"民主化"感覺不太民主。

Nano Banana 2：對話模型

2026年1月。Nano Banana 2改變了遊戲規則。

不是用更好的提示詞。不是用更好的圖生圖。而是用對話。

David的新工作流，同樣的登陸頁面圖像：

第1轉：

David："生成一個開發者在辦公桌前工作，現代辦公室"
Nano Banana 2：[生成圖像]

第2轉：

David："讓他站著而不是坐著，加第二個顯示器"
Nano Banana 2：[更新圖像，同一個人，現在站著，雙顯示器]

第3轉：

David："光線感覺太人工了。改成自然窗戶光，傍晚時分"
Nano Banana 2：[更新圖像，溫暖的金色時刻光線]

第4轉：

David："光線完美。角落能不能加盆植物？一棵高大的琴葉榕"
Nano Banana 2：[新增植物，保持光線和構圖]

第5轉：

David："植物太顯眼了。做小一點移到桌子後面"
Nano Banana 2：[調整植物大小和位置]

總成本：$0.45（5轉）。總時間：6分鐘。結果："這正是我想要的。"

差異是典範級的轉變。David不是在撰寫提示詞。他在對話。模型記得背景。每一轉都建立在上一轉之上。沒有品質下降。沒有重新開始。

對話生圖如何運作

技術架構

傳統擴散模型：

[提示詞A] → [生成] → [圖像A]
[提示詞B] → [生成] → [圖像B]（與A無關）

Nano Banana 2多模態對話：

[提示詞A] → [生成] → [圖像A + 背景]
                                     ↓
[提示詞B + 圖像A + 背景] → [生成] → [圖像B]
                                     ↓
[提示詞C + 圖像B + 背景] → [生成] → [圖像C]

關鍵：持久多模態背景。Nano Banana 2保持對以下內容的持續理解：

視覺狀態（當前圖像）
對話歷史（要求/修改過什麼）
用戶意圖（想實現什麼）

它不是從頭重新生成。它是帶著理解的編輯。

什麼讓它"原生"

其他工具把對話拼湊到現有模型上：

GPT-4V描述圖像→DALL-E生成新的
多次API調用，多個模型，每次交接都丟失背景

Nano Banana 2是原生多模態。一個模型。一個背景窗口。真正的理解。

結果：

連貫性：修改有視覺意義，不是隨機突變
記憶："把植物變小"記得是哪棵植物，在哪裡
意圖保持："保持光線但換桌子"保留重要的部分

對話深度

你能進行多少轉？Google文檔建議有效背景支持10-20轉往來。實踐中：

轉數	有效性	最適合
1-3	100%	快速單次修改
4-7	95%	多元素調整
8-12	90%	複雜場景構建
13-20	80%	持續細化
20+	退化	開啟新會話

專業提示：對於複雜場景，用5-7轉完成基礎工作，然後保存參考圖，開啟新對話進行微調。

你可以立即行動

你的第一次對話

所需時間：10分鐘。成本：約$0.30。

步驟1：打開Google AI Studio。選擇Gemini 3.1 Flash Image。

步驟2：從簡單開始：

"一個咖啡杯在木桌上，晨光"

生成。

步驟3：做個修改：

"把杯子改成藍色陶瓷的"

生成。同樣的桌子。同樣的光線。不同的杯子。

步驟4：新增元素：

"杯子旁邊加個筆記本和筆"

生成。藍色杯子，筆記本，筆。連貫的構圖。

步驟5：調整構圖：

"把筆記本移到左邊並打開"

生成。佈局調整。其他一切保留。

步驟6：改變氛圍：

"改成傍晚，暖色燈光而不是早晨"

生成。同樣的物品。新的光線。連貫的陰影。

你剛剛進行了6轉對話。總時間：4分鐘。試試用傳統圖生圖做這個。

有效的對話模式

模式1：雕塑方法

從寬開始。收窄細化。

T1："一條城市街道場景"
T2："改成東京雨夜"
T3："加日文霓虹燈牌"
T4："前景加個打傘的人"
T5："把傘改成紅色"
T6："濕路面加倒影"
T7："倒影應該顯示霓虹燈牌"

像雕塑：粗形→中細節→精細節。

模式2：A/B測試方法

探索變體而不喪失已有成果。

T1："一個現代客廳，極簡風格"
[好的基礎]

T2："把沙發改成藍色"
[看選項A]

T3："其實回到原版把沙發改成綠色"
[選項B——等等，它記得"原版"嗎？]

限制：Nano Banana 2沒有傳統意義上的"復原"。它記得對話，但不能隨意恢復到之前的狀態。

變通方案：在關鍵里程碑保存參考圖。如果T3出錯，用T1的圖像作為參考開啟新對話。

模式3：修正循環

像和設計師工作一樣的自然來回。

T1："一個人在山區登山"
[圖像生成]

T2："這個人應該穿登山靴而不是運動鞋"
[修復]

T3："好多了，但靴子看起來太新了。做舊一點，帶點泥"
[修復]

T4："靴子很棒。現在背包看起來太小了。改成大型登山包"
[修復]

T5："完美。最後一件事——加根登山杖"
[完成]

每次修正都被理解在背景中。不用重新解釋。不用重新開始。

模式4：場景演進

漸進式構建複雜場景。

T1："一間空教室"
T2："加6張桌子圍成一圈"
T3："前面放張講台桌配筆記本"
T4："白板上有數學公式"
T5："下午陽光透過窗戶照進來"
T6："地板上新增窗戶框架的陰影"

傳統方法：寫200字提示詞描述所有這些。指望模型正確解析。

對話方法：實時構建，驗證每個元素，按需調整。

什麼有效（什麼無效）

流暢的對話

空間調整：

"把車移到左邊"
"讓建築更高"
"增加兩人之間的空間"

屬性變化：

"顏色改成藍色"
"改成夜晚而不是白天"
"加霧/薄霧"

新增/刪除元素：

"天空加隻鳥"
"去掉衬衫上的logo"
"手裡放杯咖啡"

風格轉換（合理範圍內）：

"讓它看起來像水彩畫"
"應用復古膠片效果"
"讓它更寫實"

困難的對話

極端透視變化：

"把場景旋轉90度"
"俯視角度"
"特寫臉部"

這些用參考圖重新生成效果更好。

同時新增多個複雜元素：

"加人群、光線改成日落、讓它下雨、再加霓虹燈牌"

分成步驟：

"加人群"→驗證→"光線改成日落"→驗證→等等。

撤銷之前的修改：

"其實，回到3轉前的樣子"

Nano Banana 2不維護歷史樹。在里程碑保存參考圖。

矛盾的指令：

"讓它更亮但也更暗"
"加更多人但保持極簡"

模型會盡力，但矛盾的方向產生混亂的結果。

生產工作流

登陸頁面主圖

傳統：

寫50個提示詞變體
生成100張圖
篩選到10個選項
客戶選1個
再迭代5次
時間：3-4小時

對話方法：

從概念開始
進行10轉對話細化
客戶實時觀看/建議
鎖定最終版本
時間：20-30分鐘

社交媒體行銷活動

需要20個同一場景的變體做A/B測試？

第1-5轉：通過對話完成基礎場景 第6轉："把這個存成版本A" 第7轉："回到版本A，但把標題文字顏色改成紅色"→版本B

其實，因為沒有"保存狀態"，更好的方法：

完成基礎場景（5轉）
保存參考圖
開啟3個新對話，以該參考圖為起點：
- 對話B："標題顏色改成紅色"
- 對話C："背景改成城市景觀"
- 對話D："加段客戶評價"

故事板迭代

電影導演需要迭代場景構圖：

T1："過肩鏡頭，人物看牆上的畫，戲劇性單頂光"
T2："加百葉窗窗戶的陰影"
T3："桌上放杯威士忌"
T4："杯子應該有冰塊，半滿"
T5："杯子旁邊加把槍"
T6："讓槍反射窗戶光線"
T7："人物應該看著槍而不是鏡頭"
T8："窗外加雨"

導演看著構圖演進。實時做決策。不用"我會認出來"的生成彩票。

對話的經濟學

成本對比

場景：通過10次迭代優化行銷圖片。

方法	迭代	單次成本	總成本	時間
傳統生成	10次獨立	$0.05	$0.50	30分鐘
圖生圖	10次處理	$0.05	$0.50	25分鐘
Nano Banana 2	10轉對話	$0.03	$0.30	10分鐘

節省的不只是錢。時間和腦力更重要。

隱藏成本：決策疲勞

傳統AI圖像生成：

生成20個選項
比較20個選項
選1個
懷疑選擇
再生成20個
從不滿意

對話方法：

漸進式構建
驗證每個決策
有機地達到滿意
知道為什麼最終圖像有效

限制

沒有真正的復原

一旦走上某條路，不能任意分支返回。變通方案：在關鍵決策點保存參考圖。

背景窗口限制

大約20轉後，模型可能開始忘記早期對話細節。複雜項目用參考圖分成多個對話。

單圖像聚焦

每次對話維護一個活躍圖像。不能同時處理多個構圖。變通方案：多個瀏覽器標籤/對話。

語言細微差別

"讓它更動感"vs"讓它更有活力"——細微的提示差異仍然重要。模型理解自然語言很好，但不完美。

更大的圖景

對話生圖不只是一個功能。它是一個典範轉變。

傳統AI圖像工具把用戶當成機器操作員：寫精確指令，獲取輸出，重複。

Nano Banana 2把用戶當成協作者：討論，迭代，一起細化。

這反映了人類設計師的實際工作方式：

"給我看些東西"
"嗯，暖一點"
"對，像那樣，但更大"
"完美，只要加……"

最好的創意工具不只是執行命令。它們參與對話。

系列導航

這是Nano Banana 2大師班系列的第2篇。

上一篇：E01：從LoRA到零訓練：角色一致性革命
下一篇：E03：從提示猜測到空間邏輯
系列總覽：大師班索引

對話革命來了。別再拉杠桿了。開始對話吧。