從文字生成圖像到對話生成圖像
停止撰寫提示詞。開始對話。Nano Banana 2 的多模態對話如何將圖像生成從老虎機變成協作式設計流程。
發布於 2026-02-27
從文字生成圖像到對話生成圖像
提示詞工程的陷阱
2024年,AI圖像生成就像老虎機。
你拉動拉桿——寫一個提示詞,點擊生成——然後祈禱中大獎。大多數時候,你得到的是檸檬。所以你再拉一次。又一次。再一次。每次生成都要花錢。每次失敗都要花時間。
認識一下David。他在一家SaaS新創公司擔任行銷總監。2024年10月,他需要一張登陸頁面的主圖:"一位開發者在站立式辦公桌前工作,現代辦公室,自然光線,專注的表情,極簡美學。"
他的工作流程:
生成1:"開發者看起來太無聊了。我們能讓他看起來更投入嗎?" 生成2:"表情好多了,但光線太強了。" 生成3:"光線不錯,但桌子的顏色錯了。" 生成4:"桌子顏色改對了,但姿勢很彆扭。" 生成5:"姿勢好多了,但背景太分散注意力了。" 生成6-15:各種嘗試修復各種問題。
總成本:$8.50。總時間:47分鐘。結果:"還行吧。就用這張了。"
這就是傳統AI圖像生成的隱藏成本。不是API調用費用。是迭代。被一千次微調折磨至死。
最糟糕的是?每次生成都相互獨立。當David處理生成3時,模型不會"記住"他在生成2中喜歡的什麼。每天都是土撥鼠日,一次又一次。
傳統解決方案(以及為什麼它們行不通)
方案1:更長、更詳細的提示詞
每個人給的建議:"寫更好的提示詞。"
於是David學會了提示詞工程:
- "8k,超高細節,專業攝影"
- "Unsplash風格,佳能R5拍攝,50mm鏡頭"
- "下午2點窗戶透進來的柔和漫射光,ISO 100,f/2.8"
- "極簡斯堪地那維亞辦公室內飾搭配Eames椅"
他的提示詞長到200多個字。結果?稍微好一點。但現在每個提示詞要寫10分鐘。當客戶說"其實,試試坐式辦公桌而不是站立式"時,他重寫了整篇文章。
工作量增加10倍。結果改善20%。
方案2:圖生圖
大多數工具新增了img2img功能。上傳你那張差不多對的圖,描述修改,生成變體。
更好,但很笨拙:
- 下載圖像
- 上傳到img2img界面
- 撰寫新提示詞描述修改
- 調整強度滑塊(0.5?0.7?0.9?)
- 生成3-4個變體
- 看起來都不對
- 再調強度
- 重複
而且img2img有個致命缺陷:它是破壞性的。每次處理都會降低質量。細節模糊。出現偽影。到第5代,圖像看起來像影印件的影印件。
方案3:分層編輯+局部重繪
Photoshop風格的工作流。選取你想修改的區域。描述修改。生成。
強大,但:
- 需要技術技能(遮罩、圖層、混合)
- 耗時(每次編輯遮罩5分鐘)
- 風格不一致(新元素不總是匹配舊的)
複雜的編輯David需要設計師幫忙。AI的"民主化"感覺不太民主。
Nano Banana 2:對話模型
2026年1月。Nano Banana 2改變了遊戲規則。
不是用更好的提示詞。不是用更好的圖生圖。而是用對話。
David的新工作流,同樣的登陸頁面圖像:
第1轉:
David:"生成一個開發者在辦公桌前工作,現代辦公室"
Nano Banana 2:[生成圖像]
第2轉:
David:"讓他站著而不是坐著,加第二個顯示器"
Nano Banana 2:[更新圖像,同一個人,現在站著,雙顯示器]
第3轉:
David:"光線感覺太人工了。改成自然窗戶光,傍晚時分"
Nano Banana 2:[更新圖像,溫暖的金色時刻光線]
第4轉:
David:"光線完美。角落能不能加盆植物?一棵高大的琴葉榕"
Nano Banana 2:[新增植物,保持光線和構圖]
第5轉:
David:"植物太顯眼了。做小一點移到桌子後面"
Nano Banana 2:[調整植物大小和位置]
總成本:$0.45(5轉)。總時間:6分鐘。結果:"這正是我想要的。"
差異是典範級的轉變。David不是在撰寫提示詞。他在對話。模型記得背景。每一轉都建立在上一轉之上。沒有品質下降。沒有重新開始。
對話生圖如何運作
技術架構
傳統擴散模型:
[提示詞A] → [生成] → [圖像A]
[提示詞B] → [生成] → [圖像B](與A無關)
Nano Banana 2多模態對話:
[提示詞A] → [生成] → [圖像A + 背景]
↓
[提示詞B + 圖像A + 背景] → [生成] → [圖像B]
↓
[提示詞C + 圖像B + 背景] → [生成] → [圖像C]
關鍵:持久多模態背景。Nano Banana 2保持對以下內容的持續理解:
- 視覺狀態(當前圖像)
- 對話歷史(要求/修改過什麼)
- 用戶意圖(想實現什麼)
它不是從頭重新生成。它是帶著理解的編輯。
什麼讓它"原生"
其他工具把對話拼湊到現有模型上:
- GPT-4V描述圖像→DALL-E生成新的
- 多次API調用,多個模型,每次交接都丟失背景
Nano Banana 2是原生多模態。一個模型。一個背景窗口。真正的理解。
結果:
- 連貫性:修改有視覺意義,不是隨機突變
- 記憶:"把植物變小"記得是哪棵植物,在哪裡
- 意圖保持:"保持光線但換桌子"保留重要的部分
對話深度
你能進行多少轉?Google文檔建議有效背景支持10-20轉往來。實踐中:
| 轉數 | 有效性 | 最適合 |
|---|---|---|
| 1-3 | 100% | 快速單次修改 |
| 4-7 | 95% | 多元素調整 |
| 8-12 | 90% | 複雜場景構建 |
| 13-20 | 80% | 持續細化 |
| 20+ | 退化 | 開啟新會話 |
專業提示:對於複雜場景,用5-7轉完成基礎工作,然後保存參考圖,開啟新對話進行微調。
你可以立即行動
你的第一次對話
所需時間:10分鐘。成本:約$0.30。
步驟1:打開Google AI Studio。選擇Gemini 3.1 Flash Image。
步驟2:從簡單開始:
"一個咖啡杯在木桌上,晨光"
生成。
步驟3:做個修改:
"把杯子改成藍色陶瓷的"
生成。同樣的桌子。同樣的光線。不同的杯子。
步驟4:新增元素:
"杯子旁邊加個筆記本和筆"
生成。藍色杯子,筆記本,筆。連貫的構圖。
步驟5:調整構圖:
"把筆記本移到左邊並打開"
生成。佈局調整。其他一切保留。
步驟6:改變氛圍:
"改成傍晚,暖色燈光而不是早晨"
生成。同樣的物品。新的光線。連貫的陰影。
你剛剛進行了6轉對話。總時間:4分鐘。試試用傳統圖生圖做這個。
有效的對話模式
模式1:雕塑方法
從寬開始。收窄細化。
T1:"一條城市街道場景"
T2:"改成東京雨夜"
T3:"加日文霓虹燈牌"
T4:"前景加個打傘的人"
T5:"把傘改成紅色"
T6:"濕路面加倒影"
T7:"倒影應該顯示霓虹燈牌"
像雕塑:粗形→中細節→精細節。
模式2:A/B測試方法
探索變體而不喪失已有成果。
T1:"一個現代客廳,極簡風格"
[好的基礎]
T2:"把沙發改成藍色"
[看選項A]
T3:"其實回到原版把沙發改成綠色"
[選項B——等等,它記得"原版"嗎?]
限制:Nano Banana 2沒有傳統意義上的"復原"。它記得對話,但不能隨意恢復到之前的狀態。
變通方案:在關鍵里程碑保存參考圖。如果T3出錯,用T1的圖像作為參考開啟新對話。
模式3:修正循環
像和設計師工作一樣的自然來回。
T1:"一個人在山區登山"
[圖像生成]
T2:"這個人應該穿登山靴而不是運動鞋"
[修復]
T3:"好多了,但靴子看起來太新了。做舊一點,帶點泥"
[修復]
T4:"靴子很棒。現在背包看起來太小了。改成大型登山包"
[修復]
T5:"完美。最後一件事——加根登山杖"
[完成]
每次修正都被理解在背景中。不用重新解釋。不用重新開始。
模式4:場景演進
漸進式構建複雜場景。
T1:"一間空教室"
T2:"加6張桌子圍成一圈"
T3:"前面放張講台桌配筆記本"
T4:"白板上有數學公式"
T5:"下午陽光透過窗戶照進來"
T6:"地板上新增窗戶框架的陰影"
傳統方法:寫200字提示詞描述所有這些。指望模型正確解析。
對話方法:實時構建,驗證每個元素,按需調整。
什麼有效(什麼無效)
流暢的對話
空間調整:
- "把車移到左邊"
- "讓建築更高"
- "增加兩人之間的空間"
屬性變化:
- "顏色改成藍色"
- "改成夜晚而不是白天"
- "加霧/薄霧"
新增/刪除元素:
- "天空加隻鳥"
- "去掉衬衫上的logo"
- "手裡放杯咖啡"
風格轉換(合理範圍內):
- "讓它看起來像水彩畫"
- "應用復古膠片效果"
- "讓它更寫實"
困難的對話
極端透視變化:
- "把場景旋轉90度"
- "俯視角度"
- "特寫臉部"
這些用參考圖重新生成效果更好。
同時新增多個複雜元素:
- "加人群、光線改成日落、讓它下雨、再加霓虹燈牌"
分成步驟:
- "加人群"→驗證→"光線改成日落"→驗證→等等。
撤銷之前的修改:
- "其實,回到3轉前的樣子"
Nano Banana 2不維護歷史樹。在里程碑保存參考圖。
矛盾的指令:
- "讓它更亮但也更暗"
- "加更多人但保持極簡"
模型會盡力,但矛盾的方向產生混亂的結果。
生產工作流
登陸頁面主圖
傳統:
- 寫50個提示詞變體
- 生成100張圖
- 篩選到10個選項
- 客戶選1個
- 再迭代5次
- 時間:3-4小時
對話方法:
- 從概念開始
- 進行10轉對話細化
- 客戶實時觀看/建議
- 鎖定最終版本
- 時間:20-30分鐘
社交媒體行銷活動
需要20個同一場景的變體做A/B測試?
第1-5轉:通過對話完成基礎場景 第6轉:"把這個存成版本A" 第7轉:"回到版本A,但把標題文字顏色改成紅色"→版本B
其實,因為沒有"保存狀態",更好的方法:
- 完成基礎場景(5轉)
- 保存參考圖
- 開啟3個新對話,以該參考圖為起點:
- 對話B:"標題顏色改成紅色"
- 對話C:"背景改成城市景觀"
- 對話D:"加段客戶評價"
故事板迭代
電影導演需要迭代場景構圖:
T1:"過肩鏡頭,人物看牆上的畫,戲劇性單頂光"
T2:"加百葉窗窗戶的陰影"
T3:"桌上放杯威士忌"
T4:"杯子應該有冰塊,半滿"
T5:"杯子旁邊加把槍"
T6:"讓槍反射窗戶光線"
T7:"人物應該看著槍而不是鏡頭"
T8:"窗外加雨"
導演看著構圖演進。實時做決策。不用"我會認出來"的生成彩票。
對話的經濟學
成本對比
場景:通過10次迭代優化行銷圖片。
| 方法 | 迭代 | 單次成本 | 總成本 | 時間 |
|---|---|---|---|---|
| 傳統生成 | 10次獨立 | $0.05 | $0.50 | 30分鐘 |
| 圖生圖 | 10次處理 | $0.05 | $0.50 | 25分鐘 |
| Nano Banana 2 | 10轉對話 | $0.03 | $0.30 | 10分鐘 |
節省的不只是錢。時間和腦力更重要。
隱藏成本:決策疲勞
傳統AI圖像生成:
- 生成20個選項
- 比較20個選項
- 選1個
- 懷疑選擇
- 再生成20個
- 從不滿意
對話方法:
- 漸進式構建
- 驗證每個決策
- 有機地達到滿意
- 知道為什麼最終圖像有效
限制
沒有真正的復原
一旦走上某條路,不能任意分支返回。變通方案:在關鍵決策點保存參考圖。
背景窗口限制
大約20轉後,模型可能開始忘記早期對話細節。複雜項目用參考圖分成多個對話。
單圖像聚焦
每次對話維護一個活躍圖像。不能同時處理多個構圖。變通方案:多個瀏覽器標籤/對話。
語言細微差別
"讓它更動感"vs"讓它更有活力"——細微的提示差異仍然重要。模型理解自然語言很好,但不完美。
更大的圖景
對話生圖不只是一個功能。它是一個典範轉變。
傳統AI圖像工具把用戶當成機器操作員:寫精確指令,獲取輸出,重複。
Nano Banana 2把用戶當成協作者:討論,迭代,一起細化。
這反映了人類設計師的實際工作方式:
- "給我看些東西"
- "嗯,暖一點"
- "對,像那樣,但更大"
- "完美,只要加……"
最好的創意工具不只是執行命令。它們參與對話。
系列導航
這是Nano Banana 2大師班系列的第2篇。
- 上一篇:E01:從LoRA到零訓練:角色一致性革命
- 下一篇:E03:從提示猜測到空間邏輯
- 系列總覽:大師班索引
對話革命來了。別再拉杠桿了。開始對話吧。
