返回部落格
nano-banana
conversation
editing
workflow
multimodal
iterative-design

從文字生成圖像到對話生成圖像

停止撰寫提示詞。開始對話。Nano Banana 2 的多模態對話如何將圖像生成從老虎機變成協作式設計流程。

發布於 2026-02-27

從文字生成圖像到對話生成圖像

提示詞工程的陷阱

2024年,AI圖像生成就像老虎機。

你拉動拉桿——寫一個提示詞,點擊生成——然後祈禱中大獎。大多數時候,你得到的是檸檬。所以你再拉一次。又一次。再一次。每次生成都要花錢。每次失敗都要花時間。

認識一下David。他在一家SaaS新創公司擔任行銷總監。2024年10月,他需要一張登陸頁面的主圖:"一位開發者在站立式辦公桌前工作,現代辦公室,自然光線,專注的表情,極簡美學。"

他的工作流程:

生成1:"開發者看起來太無聊了。我們能讓他看起來更投入嗎?" 生成2:"表情好多了,但光線太強了。" 生成3:"光線不錯,但桌子的顏色錯了。" 生成4:"桌子顏色改對了,但姿勢很彆扭。" 生成5:"姿勢好多了,但背景太分散注意力了。" 生成6-15:各種嘗試修復各種問題。

總成本:$8.50。總時間:47分鐘。結果:"還行吧。就用這張了。"

這就是傳統AI圖像生成的隱藏成本。不是API調用費用。是迭代。被一千次微調折磨至死。

最糟糕的是?每次生成都相互獨立。當David處理生成3時,模型不會"記住"他在生成2中喜歡的什麼。每天都是土撥鼠日,一次又一次。


傳統解決方案(以及為什麼它們行不通)

方案1:更長、更詳細的提示詞

每個人給的建議:"寫更好的提示詞。"

於是David學會了提示詞工程:

  • "8k,超高細節,專業攝影"
  • "Unsplash風格,佳能R5拍攝,50mm鏡頭"
  • "下午2點窗戶透進來的柔和漫射光,ISO 100,f/2.8"
  • "極簡斯堪地那維亞辦公室內飾搭配Eames椅"

他的提示詞長到200多個字。結果?稍微好一點。但現在每個提示詞要寫10分鐘。當客戶說"其實,試試坐式辦公桌而不是站立式"時,他重寫了整篇文章。

工作量增加10倍。結果改善20%。

方案2:圖生圖

大多數工具新增了img2img功能。上傳你那張差不多對的圖,描述修改,生成變體。

更好,但很笨拙:

  1. 下載圖像
  2. 上傳到img2img界面
  3. 撰寫新提示詞描述修改
  4. 調整強度滑塊(0.5?0.7?0.9?)
  5. 生成3-4個變體
  6. 看起來都不對
  7. 再調強度
  8. 重複

而且img2img有個致命缺陷:它是破壞性的。每次處理都會降低質量。細節模糊。出現偽影。到第5代,圖像看起來像影印件的影印件。

方案3:分層編輯+局部重繪

Photoshop風格的工作流。選取你想修改的區域。描述修改。生成。

強大,但:

  • 需要技術技能(遮罩、圖層、混合)
  • 耗時(每次編輯遮罩5分鐘)
  • 風格不一致(新元素不總是匹配舊的)

複雜的編輯David需要設計師幫忙。AI的"民主化"感覺不太民主。


Nano Banana 2:對話模型

2026年1月。Nano Banana 2改變了遊戲規則。

不是用更好的提示詞。不是用更好的圖生圖。而是用對話

David的新工作流,同樣的登陸頁面圖像:

第1轉

David:"生成一個開發者在辦公桌前工作,現代辦公室"
Nano Banana 2:[生成圖像]

第2轉

David:"讓他站著而不是坐著,加第二個顯示器"
Nano Banana 2:[更新圖像,同一個人,現在站著,雙顯示器]

第3轉

David:"光線感覺太人工了。改成自然窗戶光,傍晚時分"
Nano Banana 2:[更新圖像,溫暖的金色時刻光線]

第4轉

David:"光線完美。角落能不能加盆植物?一棵高大的琴葉榕"
Nano Banana 2:[新增植物,保持光線和構圖]

第5轉

David:"植物太顯眼了。做小一點移到桌子後面"
Nano Banana 2:[調整植物大小和位置]

總成本:$0.45(5轉)。總時間:6分鐘。結果:"這正是我想要的。"

差異是典範級的轉變。David不是在撰寫提示詞。他在對話。模型記得背景。每一轉都建立在上一轉之上。沒有品質下降。沒有重新開始。


對話生圖如何運作

技術架構

傳統擴散模型:

[提示詞A] → [生成] → [圖像A]
[提示詞B] → [生成] → [圖像B](與A無關)

Nano Banana 2多模態對話:

[提示詞A] → [生成] → [圖像A + 背景]
                                     ↓
[提示詞B + 圖像A + 背景] → [生成] → [圖像B]
                                     ↓
[提示詞C + 圖像B + 背景] → [生成] → [圖像C]

關鍵:持久多模態背景。Nano Banana 2保持對以下內容的持續理解:

  • 視覺狀態(當前圖像)
  • 對話歷史(要求/修改過什麼)
  • 用戶意圖(想實現什麼)

它不是從頭重新生成。它是帶著理解的編輯

什麼讓它"原生"

其他工具把對話拼湊到現有模型上:

  • GPT-4V描述圖像→DALL-E生成新的
  • 多次API調用,多個模型,每次交接都丟失背景

Nano Banana 2是原生多模態。一個模型。一個背景窗口。真正的理解。

結果:

  • 連貫性:修改有視覺意義,不是隨機突變
  • 記憶:"把植物變小"記得是哪棵植物,在哪裡
  • 意圖保持:"保持光線但換桌子"保留重要的部分

對話深度

你能進行多少轉?Google文檔建議有效背景支持10-20轉往來。實踐中:

轉數有效性最適合
1-3100%快速單次修改
4-795%多元素調整
8-1290%複雜場景構建
13-2080%持續細化
20+退化開啟新會話

專業提示:對於複雜場景,用5-7轉完成基礎工作,然後保存參考圖,開啟新對話進行微調。


你可以立即行動

你的第一次對話

所需時間:10分鐘。成本:約$0.30。

步驟1:打開Google AI Studio。選擇Gemini 3.1 Flash Image。

步驟2:從簡單開始:

"一個咖啡杯在木桌上,晨光"

生成。

步驟3:做個修改:

"把杯子改成藍色陶瓷的"

生成。同樣的桌子。同樣的光線。不同的杯子。

步驟4:新增元素:

"杯子旁邊加個筆記本和筆"

生成。藍色杯子,筆記本,筆。連貫的構圖。

步驟5:調整構圖:

"把筆記本移到左邊並打開"

生成。佈局調整。其他一切保留。

步驟6:改變氛圍:

"改成傍晚,暖色燈光而不是早晨"

生成。同樣的物品。新的光線。連貫的陰影。

你剛剛進行了6轉對話。總時間:4分鐘。試試用傳統圖生圖做這個。


有效的對話模式

模式1:雕塑方法

從寬開始。收窄細化。

T1:"一條城市街道場景"
T2:"改成東京雨夜"
T3:"加日文霓虹燈牌"
T4:"前景加個打傘的人"
T5:"把傘改成紅色"
T6:"濕路面加倒影"
T7:"倒影應該顯示霓虹燈牌"

像雕塑:粗形→中細節→精細節。

模式2:A/B測試方法

探索變體而不喪失已有成果。

T1:"一個現代客廳,極簡風格"
[好的基礎]

T2:"把沙發改成藍色"
[看選項A]

T3:"其實回到原版把沙發改成綠色"
[選項B——等等,它記得"原版"嗎?]

限制:Nano Banana 2沒有傳統意義上的"復原"。它記得對話,但不能隨意恢復到之前的狀態。

變通方案:在關鍵里程碑保存參考圖。如果T3出錯,用T1的圖像作為參考開啟新對話。

模式3:修正循環

像和設計師工作一樣的自然來回。

T1:"一個人在山區登山"
[圖像生成]

T2:"這個人應該穿登山靴而不是運動鞋"
[修復]

T3:"好多了,但靴子看起來太新了。做舊一點,帶點泥"
[修復]

T4:"靴子很棒。現在背包看起來太小了。改成大型登山包"
[修復]

T5:"完美。最後一件事——加根登山杖"
[完成]

每次修正都被理解在背景中。不用重新解釋。不用重新開始。

模式4:場景演進

漸進式構建複雜場景。

T1:"一間空教室"
T2:"加6張桌子圍成一圈"
T3:"前面放張講台桌配筆記本"
T4:"白板上有數學公式"
T5:"下午陽光透過窗戶照進來"
T6:"地板上新增窗戶框架的陰影"

傳統方法:寫200字提示詞描述所有這些。指望模型正確解析。

對話方法:實時構建,驗證每個元素,按需調整。


什麼有效(什麼無效)

流暢的對話

空間調整

  • "把車移到左邊"
  • "讓建築更高"
  • "增加兩人之間的空間"

屬性變化

  • "顏色改成藍色"
  • "改成夜晚而不是白天"
  • "加霧/薄霧"

新增/刪除元素

  • "天空加隻鳥"
  • "去掉衬衫上的logo"
  • "手裡放杯咖啡"

風格轉換(合理範圍內):

  • "讓它看起來像水彩畫"
  • "應用復古膠片效果"
  • "讓它更寫實"

困難的對話

極端透視變化

  • "把場景旋轉90度"
  • "俯視角度"
  • "特寫臉部"

這些用參考圖重新生成效果更好。

同時新增多個複雜元素

  • "加人群、光線改成日落、讓它下雨、再加霓虹燈牌"

分成步驟:

  • "加人群"→驗證→"光線改成日落"→驗證→等等。

撤銷之前的修改

  • "其實,回到3轉前的樣子"

Nano Banana 2不維護歷史樹。在里程碑保存參考圖。

矛盾的指令

  • "讓它更亮但也更暗"
  • "加更多人但保持極簡"

模型會盡力,但矛盾的方向產生混亂的結果。


生產工作流

登陸頁面主圖

傳統

  • 寫50個提示詞變體
  • 生成100張圖
  • 篩選到10個選項
  • 客戶選1個
  • 再迭代5次
  • 時間:3-4小時

對話方法

  • 從概念開始
  • 進行10轉對話細化
  • 客戶實時觀看/建議
  • 鎖定最終版本
  • 時間:20-30分鐘

社交媒體行銷活動

需要20個同一場景的變體做A/B測試?

第1-5轉:通過對話完成基礎場景 第6轉:"把這個存成版本A" 第7轉:"回到版本A,但把標題文字顏色改成紅色"→版本B

其實,因為沒有"保存狀態",更好的方法:

  • 完成基礎場景(5轉)
  • 保存參考圖
  • 開啟3個新對話,以該參考圖為起點:
    • 對話B:"標題顏色改成紅色"
    • 對話C:"背景改成城市景觀"
    • 對話D:"加段客戶評價"

故事板迭代

電影導演需要迭代場景構圖:

T1:"過肩鏡頭,人物看牆上的畫,戲劇性單頂光"
T2:"加百葉窗窗戶的陰影"
T3:"桌上放杯威士忌"
T4:"杯子應該有冰塊,半滿"
T5:"杯子旁邊加把槍"
T6:"讓槍反射窗戶光線"
T7:"人物應該看著槍而不是鏡頭"
T8:"窗外加雨"

導演看著構圖演進。實時做決策。不用"我會認出來"的生成彩票。


對話的經濟學

成本對比

場景:通過10次迭代優化行銷圖片。

方法迭代單次成本總成本時間
傳統生成10次獨立$0.05$0.5030分鐘
圖生圖10次處理$0.05$0.5025分鐘
Nano Banana 210轉對話$0.03$0.3010分鐘

節省的不只是錢。時間和腦力更重要。

隱藏成本:決策疲勞

傳統AI圖像生成:

  • 生成20個選項
  • 比較20個選項
  • 選1個
  • 懷疑選擇
  • 再生成20個
  • 從不滿意

對話方法:

  • 漸進式構建
  • 驗證每個決策
  • 有機地達到滿意
  • 知道為什麼最終圖像有效

限制

沒有真正的復原

一旦走上某條路,不能任意分支返回。變通方案:在關鍵決策點保存參考圖。

背景窗口限制

大約20轉後,模型可能開始忘記早期對話細節。複雜項目用參考圖分成多個對話。

單圖像聚焦

每次對話維護一個活躍圖像。不能同時處理多個構圖。變通方案:多個瀏覽器標籤/對話。

語言細微差別

"讓它更動感"vs"讓它更有活力"——細微的提示差異仍然重要。模型理解自然語言很好,但不完美。


更大的圖景

對話生圖不只是一個功能。它是一個典範轉變

傳統AI圖像工具把用戶當成機器操作員:寫精確指令,獲取輸出,重複。

Nano Banana 2把用戶當成協作者:討論,迭代,一起細化。

這反映了人類設計師的實際工作方式:

  • "給我看些東西"
  • "嗯,暖一點"
  • "對,像那樣,但更大"
  • "完美,只要加……"

最好的創意工具不只是執行命令。它們參與對話。


系列導航

這是Nano Banana 2大師班系列的第2篇


對話革命來了。別再拉杠桿了。開始對話吧。